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The most damaging phrase in the 
language is: ‘It’s always been done that 
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way.’. 
(Grace B. M. Hopper) 
Alles, was wir für uns selbst tun, tun wir 


auch für andere, und alles, was wir für 
andere tun, tun wir auch für uns selbst. 


(Thich Nhat Hanh) 


Vorwort 


Das interdisziplinäre Forschungsgebiet des Entrepreneurships beschäftigt sich 
mit dem Phänomen der Unternehmensgründung. Als ein Ergebnis der For- 
schungsaktivitäten entwickelte sich der Ansatz Effectuation heraus, der versucht, 
unternehmerisches Handeln zu beschreiben. Im Rahmen dieser Theorie wird die 
Annahme getroffen, dass die Umgebung, in der sich ein Entrepreneur befindet, 
von Ungewissheit geprägt ist. Entsprechend beschreibt Effectuation das Vorge- 
hen, das Gründer anwenden, um auf unsichere und mehrdeutige Situationen zu 
reagieren. In diesem Zusammenhang verhalten sich Entrepreneure überwiegend 
kooperativ, aufgeschlossen gegenüber Neuem und verlustavers. 

Bisherige Untersuchungen behandeln unter anderem die Frage, in welchen 
Kontexten Effectuation als Entscheidungslogik anwendbar und leistungsfähig ist. 
Hierbei kamen bisher insbesondere Methoden der qualitativen und quantitativen 
Forschung zum Tragen. Demgegenüber steht das Potential von Simulations- und 
Modellierungsansätzen, das eine Formalisierung von Effectuation erlaubt. Effek- 
tuatives Verhalten wird dadurch transparent und reproduzierbar. Die vorliegende 
Arbeit beschäftigt sich daher mit Verfahren, die es ermöglichen, Effectuation 
zu modellieren und simulieren. Weiterhin wird der wissenschaftlichen Forderung 
Rechnung getragen, entrepreneurialen Agenten mit Hilfe von Künstlicher Intel- 
ligenz das selbstständige Erlernen von Effectuation zu ermöglichen. Die daraus 
resultierenden Erkenntnisse bilden die Grundlage für die künftige Entwicklung 
entscheidungsunterstützender Systeme, die Entrepreneuren im Gründungsprozess 
Hilfestellung leisten können. 
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Abstract 


Much of the research on effectuation to date has focused on the effectiveness of 
this entrepreneurship theory in different contexts and its performance relative to 
other theories. This work aims to create a framework that enables simulation- 
based studies of effectuation and at the same time lays the foundation for the 
development of start-up supportive decision-making systems. To this end, the 
extent to which effectual learning can be modelled and algorithmically interpreted 
is discussed. Existing simulation models that describe effectuation are first vali- 
dated, verified and compared. Based on this, an aggregated model is developed 
with the help of methods of agent-based modelling and reinforcement learning 
that enables effectual behaviour in the context of a prototypical entrepreneurial 
situation. The results show that an entrepreneurial agent is able to learn effectual 
behaviour. Differences in performance during learning occur when the environ- 
ment changes. The success of the agent depends on the commitment of potential 
partners or customers. Furthermore, learning success can be determined if the 
agent applies the affordable loss principle in conjunction with market-conform 
behaviour. In the future, the developed model can be used to conduct further 
studies on effectual learning behaviour, taking into account the decision-making 
behaviour of a real entrepreneur. 
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Einleitung 


Zum Zeitpunkt der Erstellung der vorliegenden Arbeit wird die Welt von einer durch 
das Virus SARS-CoV-2 hervorgerufenen COVID-19-Pandemie beherrscht. Zum 
Schutz der Bevölkerung ist das bis dahin gewohnte Gesellschaftsleben vielerorts 
durch eine Reihe von Einschränkungen geprägt. Entscheidungsträger standen und 
stehen vor der Herausforderung, die Gesundheit vieler Menschen zu schützen und 
dabei gleichzeitig ein vollständiges Erliegen wirtschaftlicher Aktivitäten, die die 
Grundlage für den aktuellen materiellen Wohlstand sind, zu vermeiden. Es lässt 
sich aktuell nur schwer abschätzen, welche globalen volkswirtschaftlichen Schäden 
durch die Krise entstanden sind und noch entstehen werden (Fernandes, 2020). 

Die Vergangenheit hat jedoch gezeigt, dass Krisen auch immer wieder die 
Möglichkeit des Hinterfragens bestehender technologischer und gesellschaftlicher 
Lösungen bieten und zum Treiber von Innovationen werden können (Peris-Ortiz 
et al., 2013). Das Voranbringen innovativer Ideen und Erkunden neuer Geschäfts- 
möglichkeiten in krisenbehafteten Zeiten wird insbesondere durch junge, schnell 
wachsende Unternehmen geleistet (Archibugi et al., 2013). Diese zeigen, dass lang- 
fristig geplante Geschäftsideen nicht robust gegenüber unvorhergesehenen Ereig- 
nissen sind (Giones et al., 2020). 

Im Bereich des Entrepreneurships hat sich ein Ansatz herausgebildet, der das 
Vorgehen von Gründern in einem unsicheren Umfeld beschreibt und unter dem 
Begriff Effectuation bekannt ist. Effectuation wird als eigenständige Entschei- 
dungslogik zur Umsetzung disruptiver Technologien bisher insbesondere von erfah- 
renen und erfolgreichen Seriengründern angewendet (Sarasvathy, 2001). Dieses 


Ergänzende Information Die elektronische Version dieses Kapitels enthält 
Zusatzmaterial, auf das über folgenden Link zugegriffen werden kann 
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Vorgehen vereint fünf Prinzipien, die Unternehmer in die Lage versetzen „diskon- 
tinuierlichen Veränderungen“ (Schumpeter, 1912, S. 155) voranzutreiben und wirt- 
schaftlich erfolgreich umzusetzen. 

Im Gegensatz dazu bedeutet kausale Logik im Kontext unternehmerischer Tätig- 
keit, Ziele festzulegen und diese mit Hilfe zu beschaffender Ressourcen und zu defi- 
nierender Aktivitäten bestmöglich zu erreichen. Die Entscheidungsfindung findet 
unter Zuhilfenahme von Vorhersagen statt (Sarasvathy, 2003). Effectuation hinge- 
gen setzt bei den vorhandenen Kompetenzen und bereits bestehenden Kontaktnetz- 
werken des Individuums an, die als Grundlage für das weitere Vorgehen dienen. 
Dadurch werden Entrepreneure in die Lage versetzt, Entscheidungen unabhängig 
von Vorhersagen zu treffen. Dieses Prinzip wird als Bird-in-Hand bezeichnet (Saras- 
vathy, 2009). Demnach fragt sich ein effektuativ handelnder Akteur, wer er ist, was 
er weiß und wen er kennt. Die Antworten auf diese Fragen beschreiben die zur Ver- 
fügung stehenden Mittel, die sich auf die eigene Identität, das vorhandene Wissen 
sowie das bestehende Netzwerk beziehen (Wiltbank et al., 2006). 

Weiterhin orientiert sich Effectuation am leistbaren Verlust. Dieser stellt eine 
vom Entrepreneur selbst definierte Investitionsgrenze dar, die nicht nur finanzi- 
eller Natur sein muss und als Affordable Loss bezeichnet wird (Dew, Sarasvathy 
et al., 2009). Da zu Beginn einer Unternehmung nicht klar ist, was genau Gegen- 
stand der Unternehmung sein wird, vermeiden effektuativ handelnde Akteure erwar- 
tete Gewinne zu prognostizieren und fokussieren sich daher auf das Worst-Case- 
Szenario (Downside Potential) (Wiltbank et al., 2006). 

Bei Effectuation sind im Gründungskontext Zufall und Überraschungen etwas 
Positives. Unerwartete Ereignisse werden für den Entrepreneur als Möglichkeiten 
verstanden, neue unternehmerische Gelegenheiten zu schaffen und auszunutzen. 
Dieses als Lemonade bezeichnete Prinzip beschreibt, dass Ungewissheit als Hebel 
für Innovationen genutzt werden kann (Read & Sarasvathy, 2005). 

Zudem werden weitere Individuen oder Gruppierungen nicht grundsätzlich 
von der Unternehmung ausgeschlossen. Vielmehr entstehen Partnerschaften durch 
Selbstselektion. Beteiligte aus dem Netzwerk des effektuativen Entrepreneurs, die 
nicht bereit sind, das Risiko der Unternehmung mitzutragen, scheiden demnach 
selbstbestimmt aus dem weiteren Prozess des Unternehmens aus. Dieses Prinzip 
wird von Sarasvathy (2009) als Crazy Quilt bezeichnet. Im Gegensatz dazu unter- 
scheidet man bei kausaler Logik strikt zwischen Konkurrenten und Partnern und 
grenzt diejenigen von Beginn an aus, die das erklärte Ziel gefährden (Sarasvathy, 
2009, S. 88f). 

Das von Sarasvathy (2009, S. 16) beschriebene Pilot-in-the-Plane-Prinzip ver- 
deutlicht die Logik nicht-prognostizierender Steuerung (Non-predictive Control). 
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Die Konzentration auf die geschickte Mittelverwendung macht die Vorhersage künf- 
tiger Ereignisse obsolet (Dew, Read et al., 2009). 

Die genannten Prinzipien finden ihren Ausdruck im effektuativen Prozess, der 
in Abbildung 1.1 illustriert ist. Ausgangspunkt sind die dem Entrepreneur zur Ver- 
fügung stehenden Mittel. Ausgehend von den identifizierten Ressourcen kann jener 
entscheiden, wie er diese verwenden möchte. Die daraus resultierenden veränder- 
lichen Ziele werden mit Partnern aus dem Netzwerk der effektuativ handelnden 
Person diskutiert. Anschließend werden Vereinbarungen zwischen den Stakehol- 
dern getroffen, die zu neuen Ressourcen und neuen Zielen führen. Dieser Prozess 
wird iterativ durchlaufen und kann zu neuen Unternehmen und Märkten führen 
(Read & Sarasvathy, 2005). 


Erweiternder Kreislauf der Ressource, 
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Abb. 1.1 Der Effectuation-Prozess. (Modifiziert nach Sarasvathy (2009, S. 101)) 
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Das Forschungsgebiet des Entrepreneurships umfasst eine Reihe konkurrieren- 
der und sich ergänzender Theorien, die versuchen entrepreneuriales Verhalten 
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zu beschreiben. Hierbei konnte sich im wissenschaftlichen Kontext, insbesondere 
neben den Ansätzen Lean Startup (Ries, 2011) und Entrepreneurial Bricolage (Baker 
& Nelson, 2005), Effectuation (Sarasvathy, 2001) etablieren und ist seit über 20 
Jahren Gegenstand der Forschung (Grégoire & Cherchem, 2019). Dabei ist das 
Theorienkonstrukt von Effectuation immer wieder Kritik ausgesetzt gewesen, was 
in der Folge zu einer Weiterentwicklung von Effectuation führte (Arend et al., 2015, 
2016; Baron, 2009; Karri & Goel, 2008). 

Während Effectuation insbesondere im Kontext verschiedener Entrepreneurship- 
Theorien, der Kreativitäts- und Innovationsforschung, dem Projektmanagement und 
Marketing diskutiert wird (Grégoire & Cherchem, 2019), stellen S. X. Zhang und 
Van Burg (2019) fest, dass darüber hinaus die Entwicklung und Interpretation von 
Effectuation durch die Anwendung von Methoden der Künstlichen Intelligenz pro- 
fitieren können. Auch Lévesque (2004) bemerkt, dass nur vereinzelt mathematische 
Modelle — welche die Grundlage für Methoden der Künstlichen Intelligenz bilden — 
zur Beschreibung entrepreneurialer Phänomene und Prozesse genutzt werden. 

Hierfür ist es notwendig, dass Effectuation verstärkt aus prozesstheoretischer 
Sicht betrachtet wird und Wirkungsweisen im Zeitverlauf untersucht werden. Bis- 
her wird Effectuation überwiegend als varianzorientiertes Konzept erforscht, wel- 
ches ausschließlich zeitpunktbezogene Zusammenhänge zwischen unabhängigen 
und abhängigen Variablen beleuchtet (Gupta et al., 2016). Die von Eberz (2018), 
Welter und Kim (2018) und Mauer et al. (2017) vorgestellten Modellansätze lie- 
fern Erkenntnisse darüber, wie Effectuation prozessual und technisch-mathematisch 
interpretiert werden können, stehen jedoch vor der Herausforderung effektuative 
Intelligenz, im Sinne von Lernfähigkeit, einzubeziehen. 

Yang und Chandra (2013) unterstreichen die Notwendigkeit, entrepreneuria- 
les Lernen, das sich in der kontinuierlichen Anwendung der Effectuation-Logik 
manifestiert, in agentenbasierte Modelle zu implementieren. Die Umsetzung des- 
sen resultiert nach Ansicht von Yang und Chandra (2013) in einer Stärkung der 
Entrepreneurship-Forschung sowie in der Nutzbarmachung der Erkenntnisse durch 
angehende und etablierte Entrepreneure. 

Ziel der vorliegenden Arbeit ist es, die ursprünglich von Sarasvathy (2001) for- 
mulierte Effectuation-Theorie um einen prozessorientierten Beitrag zu erweitern 
und Elemente bestehender Modelle, wie sie von Eberz (2018), Welter und Kim 
(2018) und Mauer et al. (2017) entwickelt wurden, zu aggregieren und um den 
Baustein effektuativen Lernens zu erweitern. 
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1.2 __Literaturanalyse und Forschungsfrage 


Sarasvathy (1998) untersuchte in ihrer Dissertation das Vorgehen von Serienentre- 
preneuren im Gründungskontext. Als Untersuchungsobjekte wählte sie 27 Experten- 
Entrepreneure und konfrontierte sie mit Entscheidungssituationen während eines 
fiktiven Gründungsprozesses. Mit Hilfe von Think-Aloud-Protokollen erfasste sie 
das Vorgehen der Entrepreneure. Die Entrepreneure besaßen zum Zeitpunkt der 
Untersuchung mindestens 10 Jahre Erfahrung und hatten mehrere Unternehmen 
gegründet (inklusive gescheiterter Unternehmen). Mit mindestens einem Unterneh- 
men waren sie am Markt etabliert. Diese Unternehmen wiesen eine Marktkapitali- 
sierung zwischen 250 Millionen und 6,5 Milliarden Dollar auf (Sarasvathy, 2009, 
S. 20-23). 

Die aus dieser Untersuchung abgeleiteten Ergebnisse, in Form von Effectua- 
tion, werden von Sarasvathy (2001) erstmalig einer breiteren wissenschaftlichen 
Öffentlichkeit vorgestellt. Den Ansatz der entwickelten Theorie grenzte Sarasvathy 
(2004) weiter zu bestehenden Theorien ab, da bis dahin gründungsbezogener Erfolg 
lediglich mit Unternehmenserfolg gleichgesetzt wurde bzw. Entrepreneure mittels 
Sammlungen von Verhaltens- und Charaktereigenschaften beschrieben wurden. In 
der Folge wird Effectuation mit weiteren Theorien der Entrepreneurship-Forschung 
verglichen, wie Bricolage, Causation, Opportunity Creation und Lean Startup (Fis- 
her, 2012; Ries, 2011; Selden & Fletcher, 2015; Welter et al., 2016). 

Um zunächst einen Überblick über die aktuelle Literatur zur Effectuation- 
Forschung zu erhalten, wurde das Vorgehen, das von Wolfswinkel et al. (2013) 
vorgeschlagen wurde, angewandt. Folgende Rahmenbedingungen sollen dabei defi- 
niert werden, die bei der Literaturauswahl zu beachten sind: 


1. Definition von Anforderungen für die Berücksichtigung bzw. den Ausschluss 
von Artikeln 

2. Identifikation relevanter Forschungsgebiete 

3. Bestimmung geeigneter Quellen 

4. Festlegung konkreter Suchbegriffe 


Ausgehend von Rahmenbedingung 1 wurden all diejenigen Zeitschriften ausge- 
wählt, die einem Rating von A+, A oder B gemäß VHB-JOURQUAL (Stand 2015) 
entsprechen. Die auf Grundlage von Rahmenbedingung 2 ermittelten Artikel, die 
in Zeitschriften erschienen, die nicht im VHB-JOURQUAL3-Ranking aufgeführt 
sind, wurden zusätzlich nach dem Scimago Journal & Country Rank bewertet. Hier- 
bei wurden nur Zeitschriften ausgewählt, die sich in 2019 im ersten Quartil befin- 
den. Des Weiteren wurden nur Artikel berücksichtigt, die im Zeitraum 1998-2020 
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erschienen sind. Effectuation ist in die Entrepreneurship-Forschung einzugliedern 
(Sarasvathy & Dew, 2003) und wurde entsprechend Rahmenbedingung 2 zunächst 
nicht weiter eingrenzt. Um bei der Literaturrecherche eine möglichst große Tref- 
ferquote zu erzielen, wurde Web-of-Science als Meta-Datenbank gewählt (Rah- 
menbedingung 3). Um relevante Literatur zur erhalten, wurde auf Grundlage von 
Rahmenbedingung 4 der Suchbegriff effectua*! verwendet. 

Durch Anwendung der Literaturkriterien 1, 3 und 4 konnten 685 wissenschaft- 
liche Artikel ermittelt werden. Um eine Ubersicht dariiber zu bekommen, in wel- 
chen Forschungsfeldern die erhaltenen Suchergebnisse verortet sind, erfolgt eine 
Zuordnung durch die Kategorisierungsvorschläge der jeweiligen Zeitschriften und 
von Web-of-Science. Abbildung 1.2 veranschaulicht die Artikel-Forschungsfelder- 
Zuordnung”. Um Bedingung 2 der Literaturauswahlkriterien zu genügen, wurde 
die ursprüngliche Suchabfrage, die die Bedingungen 1, 3 und 4 befriedigt, mit einer 
weiteren Suchabfrage in Web-of-Science kombiniert, die den Suchbegriff entrepre- 
neur* enthält. Die Suchabfragen wurden mit Hilfe eins AN D-Operators verknüpft. 
Dadurch konnten 174 Einträge gefunden werden. 

Dem Vorschlag von Wolfswinkel et al. (2013) folgend wurden zusätzlich die 
Abstracts und Titel der Suchergebnisse geprüft und auf ihren thematischen Bezug 
zur ursprünglich von Sarasvathy (2001) begründeten Effectuation-Theorie bzw. zur 
Entrepreneurship-Forschung im Allgemeinen hin untersucht. Dabei konnte festge- 
stellt werden, dass zwei Artikel nicht den geforderten Kriterien entsprachen und sich 
die Zahl der grundsätzlich relevanten Publikationen auf 172 verringerte. Eine Über- 
sicht der ermittelten wissenschaftlichen Artikel istin Anhang A.1 im elektronischen 
Zusatzmaterial dargestellt. 

Damit es möglich ist, die Veröffentlichungen thematisch zu erfassen und Schwer- 
punktthemen zu identifizieren, schlagen Felizardo et al. (2014) im Rahmen einer 
systematischen Übersichtsarbeit die Visualisierung der Inhalte mittels Textmining- 
Techniken vor. Feng et al. (2017) stellen in diesem Zusammenhang Softwarelösun- 
gen vor, die es erlauben, Ergebnisse einer Literaturanalyse grafisch aufzubereiten. 
Das von Eck und Waltman (2017) entwickelte Programm VOSviewer, das in der 
Arbeit von Feng et al. (2017) neben anderen aufgezeigt wird, bietet die Möglich- 
keit, die aus einer Literatursuche ermittelten Titel, Abstracts und Schlüsselwörter 
zu klassifizieren. Dadurch können Karten erstellt werden, die die Beziehungen zwi- 
schen Themenclustern illustrieren. 


! Das Symbol * dient hierbei als Platzhalter für beliebig viele weitere Zeichen, da neben 
Effectuation auch Begriffe wie beispielsweise effectual auftauchen können. 


? Ein Artikel kann mehreren Forschungsfeldern zugeordnet sein. 
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Abb. 1.2 Zuordnung der anhand der Literaturauswahlbedingungen erhaltenen Suchergeb- 
nisse zu Forschungsfeldern 


Zur Visualisierung der relevanten Themengebiete wurden zunächst die aus der 
Literaturanalyse mit Web-of-Science erhaltenen bibliografischen Daten der 172 
Publikationen in VOSviewer importiert. Anschließend wurde der Kookkurenz- 
Analysetyp gewählt, bei dem die Verwandtschaft von Schlüsselwörtern auf Grund- 
lage der Anzahl von Dokumenten, in denen sie gemeinsam auftreten, bestimmt 
wird. Zur Berechnung der Anzahl wurde die Fractional-Counting-Zählmethode 
angewendet (Perianes-Rodriguez et al., 2016). Zur Clusterbildung wurde die mini- 
male Anzahl des Auftretens eines Schlüsselwortes auf den Wert 5 gesetzt. Von durch 
VOSviewer 909 identifizierten Schlüsselwörtern erreichten 76 diesen Schwellwert. 
Durch die von VOSviewer genutzten Text-Mining-Methoden konnten vier Themen- 
cluster bestimmt werden. Diese sind in Abbildung 1.3 mit unterschiedlichen Farben 
markiert. Jeder Kreis mit einem dazugehörigen Text stellt ein Schlüsselwort dar 
und repräsentiert einen Knoten. Je größer der Umfang eines Kreises ist, desto häufi- 
ger tritt dieser Schlüsselbegriff auf. Die Verbindung zwischen Knoten wird mittels 
Linien visualisiert. Je dicker eine Linie zwischen zwei Knoten ist, desto häufiger tre- 
ten die Begriffe gemeinsam auf. Ausdrücke wie effectuation und causation tauchen 
besonders häufig auf. Der Begriff effectuation kommt oft im Zusammenhang mit 
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den Literalen entrepreneurship, uncertainty, decision-making und predictive logics 
vor. Diese Verbindungen geben einen Hinweis darauf, in welchem Kontext Effec- 
tuation in der Literatur vorrangig diskutiert wird. In Anhang A.2 im elektronischen 
Zusatzmaterial ist das in Abbildung 1.3 dargestellte Schlüsselwort-Netzwerk in 
tabellarischer Form aufbereitet. Die Darstellung der im Zusammenhang mit Effec- 
tuation häufig auftretenden Schlüsselwörter gibt Aufschluss über die Bandbreite 
des Forschungsgebietes. Eine inhaltliche Auseinandersetzung zu wissenschaftli- 
chen Erkenntnissen der Effectuation-Forschung findet in den Ausführungen von 
Sterzel und Richter (2019) statt. 

Zur weiteren Eingrenzung des Forschungsfeldes wurden dem ursprünglichen 
Suchbegriff in Web-of-Science weitere Schlagwörter hinzugefügt. Dies entspricht 
dem vorgeschlagenen Vorgehen von Wolfswinkel et al. (2013). Durch Ergänzung der 
Begriffe simulat* und algorithm* konnten drei wissenschaftliche Artikel ermittelt 
werden. 


Abb. 1.3 Visualisierung der Häufigkeit des (gemeinsamen) Auftretens von Schlüsselwörtern 
mit Hilfe von VOSviewer 
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In der Arbeit von Mauer et al. (2017) wird eine neue methodische Sichtweise zur 
Erforschung von Effectuation vorgeschlagen und Einblicke in die konkrete Umset- 
zung und Anwendung der Methodik diskutiert. Mauer et al. (2017) entwickeln einen 
Rahmen fiir einen nach bestimmten Regeln (steuerungsbasiert und vorhersageba- 
siert) agierenden Agenten und geben Aufschluss tiber die Leistung der Agenten 
im gründungsbezogenen Problemraum (Isotropie, Ziel-Ambiguität und Ungewiss- 
heit). Das Entscheidungsverhalten des Agenten ist dabei prozedural modelliert. Es 
vernachlässigt das Lernverhalten des Entrepreneur-Agenten. 

Welter und Kim (2018) stellen einen mit Hilfe eines NK-Modells entwickelten 
Ansatz vor, der ebenfalls die Anpassung der Strategie des Agenten im Prozess 
vernachlässigt. Dabei werden wie bei Mauer et al. (2017) konkrete Vorschläge zur 
Umsetzung des Modells diskutiert. 

S. X. Zhang und Van Burg (2019) betrachten Effectuation aus einer Design- 
Science-Perspektive und schlagen grundlegende Gestaltungsprinzipien zur Model- 
lierung von Effectuation vor, die auf aus der Biologie abgeleiteten genetischen 
Algorithmen aufbauen. Dedizierte Modellierungs- und Implementierungsansätze 
werden in diesem Kontext nicht erläutert, 

Auf Basis des aus der Literaturanalyse gewonnenen Uberblicks kënnen For- 
schungspotentiale identifiziert werden, die im Rahmen der Effectuation-Forschung 
zu einer Weiterentwicklung des Theoriengerüsts beitragen. S. X. Zhang und Van 
Burg (2019) geben Hinweise auf weitere Forschungsaktivitäten und sind der Auf- 
fassung, dass ,,future studies can explore how entrepreneurs can use AI [Artifi- 
cial Intelligence] nondeterministic models as decision support for path-dependent 
decision-making under uncertainty.“ (S. X. Zhang & Van Burg, 2019, S. 622). 
Dieser Forschungsbedarf kann mit der Evaluierung mathematischer Modelle, die 
Entscheidungs- und Lernverhalten abbilden, gedeckt werden. Im Bereich der Multi- 
Agenten-Systeme existieren eine Reihe von Methoden, die verschiedene Verhaltens- 
formen abbilden konnen (Panait & Luke, 2005). Mit einer Operationalisierung von 
Entrepreneurship-Theorien, wie Effectuation und Causation, wird der Erfolg der 
angewendeten Modelle messbar gemacht (Chandler et al., 2011; Jiang & Riiling, 
2017). 

Aufbauend auf dem aktuellen Stand der Effectuation-Forschung, insbesondere 
im Hinblick auf simulationsgestiitzte Modelle, und dem Finden einer Moglichkeit, 
um effektuatives Lernverhalten nachzubilden, ergibt sich fiir die weitere Arbeit fol- 
gende Forschungsfrage: Wie kann effektuatives Entscheidungs- und Lernverhalten 
modelliert und algorithmisch interpretiert werden? 
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1.3 _ Gliederung der Arbeit 


In den vorhergehenden Abschnitten dieses Kapitels wurden die Grundlagen der 
Entrepreneurship-Theorie Effectuation vorgestellt und der diesbezügliche aktuelle 
Stand der Wissenschaft literaturanalytisch behandelt. Darauf aufbauend wurde eine 
Eingrenzung des Forschungsfeldes vorgenommen und relevante Forschungsbedarfe 
identifiziert. Diese bildeten die Basis für die Formulierung der Forschungsfrage. 

In Kapitel 2 der Arbeit werden entscheidungstheoretische Grundlagen im Kon- 
text von Effectuation diskutiert, um eine differenzierte und detaillierte Betrachtung 
der effektuativen Entscheidungslogik zu ermöglichen. Dabei wird auf in der Litera- 
tur zu findende Verbindungen zwischen Effectuation und etablierten entscheidungs- 
theoretischen Ansätzen Bezug genommen. Vorrangig werden dabei die Begriffe der 
Ungewissheit - als zentrales Element des entrepreneurialen Problemraums — und des 
Bayesianismus untersucht. Beide Konzepte bilden die Voraussetzung für eine Reihe 
von Inferenzmethoden. In diesem Zusammenhang werden Ansätze des maschinel- 
len Lernens vorgestellt und bestehende Anwendungen im entrepreneurialen Kontext 
erörtert. Kapitel 2 behandelt theoretische Vorüberlegungen zur Beantwortung der 
in Abschnitt 1.2 formulierten Forschungsfrage. 

Kapitel 3 befasst sich mit der Untersuchung bereits existierender effektuati- 
ver Simulationsmodelle. Diese werden zunächst hinsichtlich ihrer Eigenschaften 
und Abläufe analysiert, um ein allgemeines Verständnis für die Wirkungsweisen 
der Modelle zu entwickeln. Die damit einhergehende Betrachtung der gewählten 
Methoden gibt Aufschluss über mögliche Gestaltungsaspekte bei der Modellierung 
effektuativer Entscheidungsfindung. Durch die Gegenüberstellung der Simulations- 
modelle können Konstruktionsansätze abgeleitet werden, die zur Beantwortung der 
Forschungsfrage notwendig sind. Darauf aufbauend werden ausgewählte Modelle 
mathematisch formuliert und algorithmisch interpretiert, um die zugrundeliegenden 
Architekturen und Mechanismen transparent zu machen. Dieses Vorgehen ermög- 
licht die replizierten Modelle zu implementieren und Simulationen durchzuführen. 
Anschließend werden die Ergebnisse mit denen aus bestehenden Arbeiten, die effek- 
tuative Simulationsmodelle behandeln, verglichen. 

In Kapitel 4 wird die für die Arbeit relevante Forschungsmethodik vorgestellt. 
Dabei wird das Konzept der agentenbasierten Modellierung zur Abbildung emer- 
genter Systeme eingeführt. Auf Grundlage dessen erfolgt die Entwicklung eines auf 
Reinforcement Learning basierenden Effectuation-Modells. Hierfür wird zunächst 
ein entrepreneuriales Lernproblem konstruiert. Die Modellierung der Umgebung 
und der Handlungsmöglichkeiten schaffen den Rahmen zur Lösung des Problems 
durch einen Agenten. Zur Steuerung effektuativen Verhaltens wird ein Anreiz- 
mechanismus formuliert und ein erfahrungsbasiertes Lernverfahren präsentiert. 
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AbschlieBend wird ein Ansatz zur Standardisierung des Modells und kiinftiger 
effektuativer Lernmodelle vorgeschlagen. 

Die Ergebnisse der durchgefiihrten Lernsimulationen werden in Kapitel 5 dar- 
gestellt. Dabei wird das Lernverhalten eines effektuativen Agenten bei Anderung 
ausgewählter Umgebungsparameter untersucht. Zudem wird das Anreizsystem zur 
Steuerung effektuativen Verhaltens manipuliert und Auswirkungen auf den Lern- 
prozess evaluiert. Die Leistungsfähigkeit eines effektuativen Agenten wird zudem 
mit der einer konkurrierenden Strategie verglichen. Zur Verbesserung des Lernver- 
haltens des effektuativ agierenden Agenten werden anschließend Hyperparameter- 
studien durchgeführt. 

In Kapitel 6 werden die aus der Arbeit gewonnenen Erkenntnisse zusammenge- 
fasst und aus den Lernsimulationen ermittelte Ergebnisse im Kontext der eingangs 
formulierten Forschungsfrage diskutiert. Darüber hinaus werden Einschränkungen 
dargestellt, denen das methodische Vorgehen und die erarbeiteten Erkenntnisse 
unterlegen sind. Die aus dem Überblick erhaltenen Kernelemente sowie die dis- 
kutierten Limitationen der wissenschaftlichen Arbeit erlauben die Ableitung von 
künftigen Untersuchungsbedarfen und geben einen Ausblick auf mögliche weitere 
Forschungsvorhaben. 


Open Access Dieses Kapitel wird unter der Creative Commons Namensnennung 4.0 Inter- 
national Lizenz (http://creativecommons.org/licenses/by/4.0/deed.de) veröffentlicht, wel- 
che die Nutzung, Vervielfältigung, Bearbeitung, Verbreitung und Wiedergabe in jeglichem 
Medium und Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle 
ordnungsgemäß nennen, einen Link zur Creative Commons Lizenz beifügen und angeben, 
ob Änderungen vorgenommen wurden. 

Die in diesem Kapitel enthaltenen Bilder und sonstiges Drittmaterial unterliegen eben- 
falls der genannten Creative Commons Lizenz, sofern sich aus der Abbildungslegende nichts 
anderes ergibt. Sofern das betreffende Material nicht unter der genannten Creative Commons 
Lizenz steht und die betreffende Handlung nicht nach gesetzlichen Vorschriften erlaubt ist, ist 
für die oben aufgeführten Weiterverwendungen des Materials die Einwilligung des jeweiligen 
Rechteinhabers einzuholen. 
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Aspekte entscheidungstheoretischer 2 
Grundlagen im Rahmen von Effectuation 


In Sarasvathy (2009) werden entscheidungstheoretische Konzepte vorgestellt, die 
das Vorgehen effektuativ handelnder Entrepreneure begriinden. Diese Ideen sollen 
im Folgenden präsentiert und diskutiert werden. Darüber hinaus werden Ansätze 
im Kontext von Effectuation erarbeitet, die über die bisher in der Literatur zu fin- 
denden Ausführungen hinausgehen. Sie stellen die Grundlage für das entwickelte 
effektuative Entscheidungsmodell dar. 


2.1 Bayesianismus im Kontext von Effectuation 


Die Verwendung von Methoden der wahrscheinlichkeitstheoretischen Strömung 
Bayesianismus durch effektuativ handelnde Entrepreneure wird in Sarasvathy (2009, 
S. 137-144) behandelt. Sarasvathy erläutert darin ihre Interpretation des bayess- 
chen Wahrscheinlichkeitsbegriffs im Zuge der Bewertung von gründungsrelevanten 
Situationen und den Umgang mit diesen. 

Bayesianismus wird in diesem Zusammenhang als Verfahren zur Steuerung von 
Zuständen der Natur beschrieben, die mit den eigenen Überzeugungen in Einklang 
gebracht werden können (Sarasvathy, 2009, S. 138). Im klassischen Sinne stellt 
Bayesianismus eine Möglichkeit zur Inferenz dar und wird zur Aktualisierung der 
persönlichen Überzeugungen im Hinblick auf die Zustände der Natur unter Ver- 
wendung gewisser Vorinformationen verwendet (Kumam et al., 2017). 

Für die Handlungen von Seriengründern unter bayesschen Voraussetzungen sind 
zwei Interpretationen zu finden. Bezugnehmend auf klassische Ansichten wird in 
Sarasvathy (2009, S. 138) wie folgt argumentiert: Die Beobachtung, dass die Rate 
des Scheiterns von Unternehmen sehr hoch ist, erlaubt den Schluss, dass das Grün- 
den mehrerer unabhängiger Unternehmen sinnvoll ist. Im Kontext von Effectua- 
tion kann das bayessche Theorem nach (Sarasvathy, 2009, S. 138) so interpretiert 
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werden: Ungeachtet dessen, wie hoch die Wahrscheinlichkeit fiir das Scheitern von 
Unternehmen ist, kann der Erfolg des Entrepreneurs durch Seriengriinden erhöht 
werden. Beide Deutungen resultieren im Seriengriinden. Die Herangehensweise an 
die Bewertung einer Entscheidungssituation ist jedoch eine andere. 

In Read et al. (2016) wird aufgezeigt, dass die Erläuterungen zu den bayesiani- 
schen Grundlagen in der Effectuation-Theorie nicht ausreichend sind und detaillier- 
ter dargestellt werden müssen. Um diesen Umstand Rechnung zu tragen, werden in 
den Abschnitten 2.1.1 und 2.1.2 bayessche Entscheidungsmethoden diskutiert und 
die Übertragung auf Effectuation behandelt. 


2.1.1 Zum bayesschen Wahrscheinlichkeitsbegriff 


Der Bayesianismus hathistorisch gesehen eine Reihe von Interpretationen erlebtund 
wurde aus verschiedenen Perspektiven betrachtet. Es bildeten sich Hauptströmun- 
gen heraus, die den Bayesianismus in seiner heutigen Anschauung prägten. Hierbei 
sind insbesondere der Subjektive Bayesianismus, der Empirische Bayesianismus 
und der Logische Bayesianismus zu nennen (Corfield & Williamson, 2001). 

Im Subjektiven Bayesianismus werden a-priori-Wahrscheinlichkeiten einzig und 
allein als Grad persönlicher und rationaler Überzeugung repräsentiert und unter- 
liegen lediglich der Einschränkung, dass sie kohärent im Rahmen der vorliegen- 
den Informationen sein müssen. In der Folge werden die ursprünglich getroffenen 
Annahmen bezüglich der a-priori-Wahrscheinlichkeit mit Hilfe hinzugewonnener 
Daten aktualisiert und resultieren in der a-posteriori-Wahrscheinlichkeit (de Finetti, 
1974). 

Der Empirische Bayesianismus stellt eine Kalibrierung des Subjektiven Baye- 
sianismus dar. Die Grade persönlicher Überzeugung werden mit Hilfe von objek- 
tiven Häufigkeiten, sofern diese bekannt sind, ausgedrückt. Dieser Zusammenhang 
impliziert jedoch das Problem der Referenzklassen. Bayesianische Wahrscheinlich- 
keiten, nach dem Vorbild des Subjektiven Bayesianismus, beziehen sich auf einen 
einmaligen Fall, der mittels Sätzen oder Ereignissen formuliert wird. Häufigkeiten 
hingegen stützen sich auf einen übergeordneten Fall, der über Klassen von Ergeb- 
nissen definiert wird. Zu ermitteln, welche Häufigkeit mit welchem gegebenen Grad 
der Überzeugung kalibriert werden muss, ist nicht ohne Weiteres möglich (Ramsey, 
1964). Das Principal Principle von D. Lewis (1980) versucht dieses Problem zu 
umgehen, indem es eine explizite Verbindung zwischen Graden der Überzeugung 
und objektiven Wahrscheinlichkeiten einmaliger Fälle postuliert. 

Eine weitere Perspektive des bayesschen Wahrscheinlichkeitsbegriffs stellt der 
Logische Bayesianismus dar. Dieser beschreibt zum einen eine Wahrscheinlichkeit 
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P(B|A) als den Grad, zu dem Ereignis A teilweise Ereignis B zur logischen Folge 
hat und zum anderen den Grad, zu dem ein rationaler Agent an das Eintreten von 
B glauben sollte, sofern dieser Kenntnis davon hat, dass A eingetreten ist. Dieser 
Ansatz suggeriert Objektivität, da zwei verschiedene Agenten mit dem selben Wis- 
sen nicht unterschiedliche Evidenzfunktionen verfolgen können, ohne sich dabei 
rational zu verhalten (Keynes, 1921, S. 32). 

Empirischer und Logischer Bayesianismus können zum Objektiven Bayesianis- 
mus vereint werden. Zusammengefasst halten Objektive Bayesianisten das Postulat 
Subjektiver Bayesianisten für nicht ausreichend, dass eine Evidenzfunktion ledig- 
lich den Axiomen der Wahrscheinlichkeit genügen muss. Um als rational eingestuft 
zu werden, müssen weitere Bedingungen erfüllt sein (Corfield & Williamson, 2001, 
S. 2). 

Bayesianismus hat bis heute Einzug in viele Wissenschaftsgebiete gehalten. So 
finden sich bayessche Erklärungsmodelle beispielsweise im Bereich der Künstlichen 
Intelligenz und der Wirtschaftswissenschaften wieder. Bayesianismus wird hierbei 
auch im Zusammenhang mit Kausalität diskutiert (Corfield & Williamson, 2001, 
S. 3 f.). 


2.1.2 Das Bayes-Theorem 


Das Bayes-Theorem bildet eine wichtige Grundlage bei der Betrachtung von Ent- 
scheidungen. Es dient somit der Modellierung von Lernprozessen. Bedingte Wahr- 
scheinlichkeiten helfen, neue Informationen zu verarbeiten. Dadurch ist ein Agentin 
der Lage, bisher getroffene Entscheidungen zu überdenken. Die geistige Konstruk- 
tion der Umwelt kann angepasst und Situationen neu eingeschätzt werden (Wessler, 
2012, S. 158). 

Bedingte Wahrscheinlichkeiten stellen einen Zusammenhang zwischen der vor 
Informationserhalt vorhandenen (a-priori-) Wahrscheinlichkeit für den bestimm- 
ten Zustand A, (s = 1,2,..., ns) und der (a-posteriori-) Wahrscheinlichkeit eben 
dieses Zustandes nach Eintritt des Informationsereignisses J; (i = 1,2,...,n7) 
dar. Das Bayes-Theorem beruht auf bedingten Wahrscheinlichkeiten und driickt die 
stochastische Abhängigkeit zwischen den Zuständen und Informationsereignissen 
durch Wahrscheinlichkeiten aus (Laux et al., 2014, S. 304). 

In der vorliegenden Arbeit werden ausschließlich diskrete Zustandsräume 
betrachtet, um die Komplexität der entwickelten Definitionen und Modelle auf ein 
Minimum zu beschränken. Zur mathematischen Beschreibung des Bayes-Theorems 
wird zunächst der Wahrscheinlichkeitsraum in der für diese Arbeit sinnvollen Form 
definiert. 
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Definition 2.1 (Wahrscheinlichkeitsraum) 
Die Ergebnismenge eines Zufallsexperiments sei definiert als 


Q= IER W2,.. JL. 


Das Ereignissystem A wird mit 
A:= P(Q) 


als Potenzmenge der Ergebnismenge definiert. 
Das Wahrscheinlichkeitsmaß P wird für A mit 


P : A — [0,1] 


definiert und genüge fiir A € A den von Kolmogoroff (1933, S. 2) eingeführten 
Axiomen: 


1. 0< P(A) <1, 
2. P(Q)=1, 


3. P{_JAi) = 3 P(Aı), wenn ANA; = BViF j 
- 


H 


Das Tripel (Q, A, P) heißt Wahrscheinlichkeitsraum. 


Es seien zudem die Zustände S, fürs = 1,2, ..., ns und die Informationsereignisse 
S, für i = 1,2,..., ng Ereignisse über Q mit den Ergebnissen w € S; und w €E Jj, 
wobei Ss, J; C Q ist. 

Der Satz von Bayes kann ausgehend vom definierten Wahrscheinlichkeitsraum 
wie folgt dargestellt werden. 


Definition 2.2 (a-priori-Wahrscheinlichkeit) 
Sei P (Ss) die a-priori-Wahrscheinlichkeit, dass der Zustand S; (s = 1,2, ..., ngs) 
eintritt, ohne Kenntnis vom Informationsereignis l; (i = 1,2, ..., ng) zu haben. 
Sei P(I;) die a-priori-Wahrscheinlichkeit für das Informationsereignis I; (i = 
1,2,..:, 7): 
Dann heißt P(1;|S;) = nn Likelihood des Zustands S; bezüglich des Infor- 
mationsereignisses I; unter der Voraussetzung, dass P(S,) #0 gilt. 


Durch Kenntnis der Likelihood P (7;|S,) und der a-priori-Wahrscheinlichkeit P(S;) 
ist die Berechnung der folgenden Wahrscheinlichkeiten möglich: 
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Definition 2.3 (a-posteriori-Wahrscheinlichkeit) 

P(S,|1;) heißt a-posteriori-Wahrscheinlichkeit für den Zustand Ss (s = 1,2, 
..., ns) unter der Bedingung, dass l; (i = 1,2, ...,n1) das Ergebnis der Beschaf- 
fung der Information ist, das heißt, dass das Informationsereignis I; eingetreten 
ist. 


Zur Bestimmung der Wahrscheinlichkeiten P(J;) und P(S;|J;) gilt allgemein: 
P(Ss O i) = PUi|Ss) + P(Ss). (2.1) 


Hierbei ist P (S; N I;) die Wahrscheinlichkeit dafür, dass sowohl das Informationser- 
eignis I; als auch der Zustand S, eintritt. Offenbar gilt ebenfalls: 


P(S Odi) = P(S |): P). (2.2) 
In Kombination mit Gleichung (2.1) folgt: 


P(I;|Ss)  P(Ss) 
P(S |i) = — nn. 2.3 
(Ss I) PU) (2.3) 
Die totale Wahrscheinlichkeit P (J; ) des Informationsereignisses /; kann folgender- 
maen berechnet werden: 


ns ns 
PH) =Y E Y PS) PS) E E 
s=1 zl 


sofern 
ns 


U Ss = Qund S: N S; = Ø fiir i £ j. 
s=1 
Gleichung (2.4) wird auch als Satz der totalen Wahrscheinlichkeit bezeichnet. 
In Verbindung mit Gleichung (2.3) lässt sich der Satz von Bayes wie folgt 
beschreiben: 


P(1|S5) - P(Ss) 
Ds, PUi|Ss) » P(Ss) 


P(S,|I) = (@=1,2,...,27;8=1,2,...,ng). (2.5) 
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Das Bayes-Theorem aus Gleichung (2.5) verdeutlicht, wie die a-posteriori- 
Wahrscheinlichkeiten P (S, | J; ) aus den a-priori-Wahrscheinlichkeiten POS, berech- 
net werden können, unter der Voraussetzung, dass die Likelihoods P (J;|S;) gegeben 
sind. 

Die Wahrscheinlichkeiten, die ein Agent nach Informationserhalt J; den Zustän- 
den S1, S2,..., Sn, zuordnet, hängen, basierend auf Gleichung (2.5), von folgenden 
Faktoren ab: 


e Festlegung der a-priori-Wahrscheinlichkeiten P(S1), P(S2),... P(Sn,) für die 
Zustände vor dem Erhalt zusätzlicher Informationen durch den Agenten 

e Einschätzung der stochastischen Abhängigkeit zwischen den Zuständen S1, 
S2,..., Sng und den Informationsereignissen 71, /2,..., In, vor Informations- 
erhalt durch den Agenten in Form der bedingten Wahrscheinlichkeiten P (J;|S;) 

e Tatsächliches Eintreten des Informationsereignisses J; 


Eine weitere Bedingung für den Satz von Bayes bezieht sich auf die Informati- 
onsereignisse /ı, I2, ..., In,. Diese sind nur dann prognoserelevant und damit für 
die Berechnung der a-posteriori-Wahrscheinlichkeiten essentiell, wenn ihre Aus- 
prägungen stochastisch abhängig vom Zustand sind. Es ergibt sich sonst offenbar 
P(S,|I) = P(S;). Es ist generell nur ein probabilistischer Rückschluss auf den 
Zustand möglich ist. Das Urteilen hinsichtlich des Zustandes verbessert sich jedoch 
durch das Auftreten prognoserelevanter Informationen (Laux et al., 2014, S. 305). 

Aufbauend auf den vorangegangenen Definitionen wird im Folgenden eine ver- 
einfachte Übertragung des Satzes von Bayes auf effektuatives Schließen vorgenom- 
men. Dies ermöglicht den ursprünglich von Sarasvathy (2009, S. 138) rudimentär 
formulierten Vergleich von Effectuation und bayesschem Schließen anschließend 
zu diskutieren. 


Definition 2.4 (Wahrscheinlichkeitsraum im Kontext von Effectuation) 
Der Wahrscheinlichkeitsraum (Q, A, P) sei konkret mit 


Q = zukünftige Erfolgssituationen der Unternehmen des Agenten 


mit den Elementen wı, w2, ... bestimmt, wobei für die einzelnen Unternehmen U1, 
U2, ..., die mit + (erfolgreich) oder — (gescheitert) sein können, gilt 
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ou "UV 
w: Ui 
w3 : UF U, 
ou Ui U, 
ois : UF U, 
ws : U; U, 


oa : HD 


Zudem seien die Ereignisse 


S; ... Anzahl der gegründeten Unternehmen des Agenten ist s für 


s=1,2,...und 
I; ... Anzahl der gescheiterten Unternehmen des Agenten ist i für 
SE E 


mit Ss, I; C Q definiert. 
Offenbar gilt 


S = Q \ le, wa}... Anzahl der gegründeten Unternehmen des Agenten ist 
größer als 1, 
I = Q \ len, @3, @7,...}... Anzahl der gescheiterten Unternehmen des 


Agenten ist mindestens 1. 
Aund P seien gemäß Definition 2.1 festgelegt. 


Wird der Satz von Bayes auf das Beispiel von Sarasvathy aus Sarasvathy (2009, 
S. 138) angewendet, ist folgende Definition zweckmäßig: 


Korollar 2.5 (Satz von Bayes im Kontext von Effectuation) 

P(I) = Wahrscheinlichkeit dafür, dass mindestens ein gegründetes Unternehmen 
des Agenten, in diesem Fall der Entrepreneur, scheitert. 

P(S) = Wahrscheinlichkeit dafür, dass der Agent mehr als ein Unternehmen grün- 
det. 
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P(I|S) = Wahrscheinlichkeit dafür, dass der Agent mit mindestens einem Unter- 
nehmen scheitert, unter der Annahme, dass er mehr als ein Unternehmen griindet. 
P(S|I) = Wahrscheinlichkeit dafür, dass der Agent mehr als ein Unternehmen 
gründet, unter der Bedingung, dass mindestens ein Unternehmen gescheitert ist. 


Wie bereits im Abschnitt 2.1 angedeutet, würde ein Agent bzw. Serienentrepreneur 
im klassischen Sinne des Bayesianismus aus der Beobachtung, dass viele Unter- 
nehmen scheitern, schließen, dass es der Gründung mehrerer Unternehmen bedarf. 
Sarasvathy (2009, S. 138) schreibt dazu konkret: 


„I observe that the probability of firm failure is very high. Therefore I will start several 
firms.“ 


Sarasvathy definiert jedoch nicht hinreichend genau, ob mit der Beobachtung die 
a-priori-Wahrscheinlichkeit P(/) oder die bedingte Wahrscheinlichkeit P(J|S) 
gemeint ist. Aufgrund der Schlussfolgerung, dass der Agent mehrere Unternehmen 
gründet, wenn er beobachtet, dass viele Unternehmen scheitern, ist anzunehmen, 
dass P(S|I) die a-posteriori-Wahrscheinlichkeit darstellt. Diese besagt, wie wahr- 
scheinlich es ist, dass ein Agent mehrere Unternehmen gründet, sofern er beobachtet 
hat, dass mindestens ein bereits von ihm gegründetes Unternehmen gescheitert ist. 
Folglich kann P(/) nur als a-priori-Wahrscheinlichkeit verstanden werden, dass 
mindestens ein vom Agenten gegründetes Unternehmen scheitert. 

Unter der Voraussetzung, dass neben PO" die Wahrscheinlichkeiten P (S) und 
P(I|S) bekannt sind, kann mit Hilfe des Satz von Bayes aus Gleichung (2.5) ermittelt 
werden, wie hoch die Wahrscheinlichkeit des Agenten ist, mehr als ein Unternehmen 
zu gründen, falls mindestens ein Unternehmen scheitert. Diese Wahrscheinlichkeit 
ist kleiner als 1, solange die Wahrscheinlichkeit dafür, dass der Agent mit einem 
Unternehmen scheitert, größer als 0 ist. 

Im effektuativen Fall, argumentiert Sarasvathy (2009, S. 138 f.), wird der Agent 
ebenfalls mehrere Unternehmen gründen, unabhängig davon wie hoch die Wahr- 
scheinlichkeit ist, dass Unternehmen scheitern. Da Sarasvathy davon ausgeht, dass 
bei einer effektuativen Interpretation des Bayesianismus der Agent die Bedingun- 
gen gestalten möchte, beispielsweise durch das Gründen mehr als eines Unterneh- 
mens, ist anzunehmen, dass der Zweck die Gründung mindestens eines erfolgreichen 
Unternehmens ist. Konkret schreibt Sarasvathy (2009, S. 138) dazu: 


„In the effectual interpretation, however, the entrepreneur reasons as follows: irrespec- 
tive of what the probability of firm failure is, I can increase the probability of ‘my’ 
success through serial entrepreneurship.“ 
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Der Argumentation Sarasvathys folgend, versucht ein effektuativ handelnder Agent 
mehrere Unternehmen zu griinden, um die Wahrscheinlichkeit fiir seinen Erfolg zu 
erhöhen. Diese wird durch die bedingte a-posteriori- Wahrscheinlichkeit P (S|) aus- 
gedriickt. Die Behauptung, dass Bayesianismus unter effektuativen Gesichtspunkten 
vielmehr ein Steuerungsmechanismus, als ein Inferenzmechanismus ist, kann dem- 
nach nicht bestätigt werden. In beiden Fällen werden Wahrscheinlichkeiten für das 
Eintreten eines bestimmten Zustandes geschätzt. Dieser wird im klassischen wie im 
effektuativen Fall anders definiert. Im klassischen Sinne wird die Wahrscheinlich- 
keit für das Eintreten des Ereignisses, dass der Agent mehr als ein Unternehmen 
gründet, geschätzt, unter der Bedingung, dass ein von ihm gegründetes Unterneh- 
men gescheitert ist. Im effektuativen Beispiel wird versucht zu ermitteln, wie hoch 
die Wahrscheinlichkeit für den Erfolg des Unternehmens des Agenten ist, unter der 
Voraussetzung, dass P(/) manipulierbar ist. PO) kann aus wahrscheinlichkeits- 
theoretischer Sicht jedoch nicht verändert werden, sondern ist lediglich beobacht- 
bar als a-priori-Wahrscheinlichkeit (Peyrolön, 2020, S. 18). Unter Zuhilfenahme 
des Satz von Bayes aus Gleichung (2.5) kann die a-posteriori-Wahrscheinlichkeit 
P(S|I) für das Gründen mehr als eines Unternehmens unter der Voraussetzung, 
dass mindestens ein bereits gegründetes Unternehmen des Agenten gescheitert ist 
(siehe Korollar 2.5), berechnet werden: 
P(IIS)- P(S) 


P(S|I) = = = (2.6) 
P(1|S)- P(S) + PU|S) - P(S) 


Der Ausdruck P (|S) bildet die Wahrscheinlichkeit für das Eintreten von J unter der 
Bedingung, dass Ereignis S nicht eingetreten ist. S stellt das Komplement zu S dar, 
damit bildet der Ausdruck P(S) die Wahrscheinlichkeit, dass Nicht-S eingetreten 
ist. 

Die a-priori-Wahrscheinlichkeit P(S) spielt im Kontext griindungsrelevanter 
Situationen eine wichtige Rolle, da sie den Grad der Uberzeugung an das Ein- 
treten eines bestimmten Zustandes $ vor Betrachtung möglicher entscheidungs- 
unterstützender Informationen angibt, die bei der Etablierung eines Unternehmens 
verhältnismäßig rar sind (Alvarez & Parker, 2009, S. 214 f.). 

Wird das entwickelte Beispiel zum grundsätzlichen Gründungsverhalten im Kon- 
text bayesschem Schließens auf Entscheidungssituationen im Gründungs- sowie 
Produkt- und Dienstleistungsentwicklungprozess erweitert, besteht die Notwen- 
digkeit möglicherweise auftetende Ereignisse zu formulieren. Konkrete Ereig- 
nisse nach Treffen einer Entscheidung können im effektuativen Sinne veränder- 
liche Ziele sein, die sich aus der Verwendung der zur Verfügung stehenden Mittel 
und dem kalkulierten leistbaren Verlust ergeben (Sarasvathy, 2009, S. 113 f.). Zur 
Bestimmung des Priors für das Eintreten eines Ereignisses und damit eines losen 
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Endes, sind in der Literatur verschiedene Methoden zu finden (Lemoine, 2019; 
Zondervan-Zwijnenburg et al., 2017). Die Maximum-Entropie-Methode, die in Jay- 
nes (1957) vorgestellt wird, bietet die Möglichkeit a-posterio-Wahrscheinlichkeiten 
unter Ungewissheit zu modellieren. Das Verfahren beruht auf den Überlegungen 
zur Entropie im Rahmen der Informationstheorie (Shannon, 1948). Entropie stellt, 
neben ihrer üblichen Interpretation des mittleren Informationsgehaltes einer Nach- 
richt, auch ein Maß für die Ungewissheit dar (Werner, 2008, S. 5). 

Die Maximum-Entropie-Methode gilt als Verallgemeinerung des Indifferenz- 
prinzips von Laplace. Dieses wird auch als Prinzip vom unzureichenden Grund 
bezeichnetund besagt, dass, in Abwesenheit zusätzlicher Informationen, sich gegen- 
seitig ausschließende Ergebnisse mit einer diskreten Gleichverteilung anzusetzen 
sind (Kreinovich, 2008, S. 16 f.). 

Zusammenfassend ist festzustellen, dass zur durch Sarasvathy (2009, S. 137- 
144) eingeführten Unterscheidung von bayesschem und effektuativem Schließen 
eine klare Definition der entscheidungsrelevanten Bestandteile benötigt wird. Mit 
der sich aus Definition 2.4 ergebenden Bildung des Wahrscheinlichkeitsraums und 
der darauf aufbauenden bayesschen Anwendung (siehe Korollar 2.5) im Kontext 
von Effectuation, können entscheidungstheoretische Elemente der Inferenzmecha- 
nismen transparent dargestellt werden. Ein Ansatz zur Modellierung effektuativen 
Entscheidens konnte damit nachgewiesen werden. 


2.2 Ungewissheit 


Das Thema Ungewissheit wird in Werken, die aus der Entrepreneurship-Forschung 
resultieren, divers diskutiert (Townsend et al., 2018, S. 564), bildet es doch die 
Grundlage für die Entscheidungsfindung im Prozess des Gründens (Packard et al., 
2017, S. 1). 

Eine rudimentäre Erklärung des Begriffs der Ungewissheit wird in Petrakis und 
Konstantakopoulou (2015, S. 11) geliefert. Demzufolge ist der Zeitablauf mit Ver- 
änderungen assoziert, wodurch Ungewissheit auftritt, die wiederum eine Schlüs- 
selkomponente der Zukunft ist. Diese wiederum beinhaltet eine Kombination von 
Faktoren, die nicht einfach identifiziert und gesteuert werden können. Die Elemente 
werden Möglichkeit, Gelegenheit, Zufall oder Glück genannt. 

Eine weitere Beschreibung bezeichnet Ungewissheit als eine vom Individuum 
wahrgenommene Unfähigkeit, etwas aufgrund des Mangels hinreichender Informa- 
tionen genau vorherzusagen. Ungewissheit kann dabei noch einmal in Ungewissheit 
des Zustands, des Ergebnisses und der Antwort klassifiziert werden. Wobei sich die 
Ungewissheit des Zustandes auf den Mangel an Informationen über bestehende 
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Bedingungen bezieht. Ungewissheit des Ergebnisses bezieht sich auf das fehlende 
Wissen über den Zusammenhang von Ursache und Wirkung, während die Unge- 
wissheit der Antwort das fehlende Wissen über die mögliche Rückmeldung des 
Marktes und weiterer Akteure, nachdem eine Handlung ausgeführt wurde, reprä- 
sentiert (Milliken, 1987, S. 134-143). 

Ein Klassifizierungsschema von Ungewissheit im Kontext von unternehmeri- 
schen Gelegenheiten wird in Tomy und Pardede (2018, S. 615) geliefert. Ungewiss- 
heit kann entsprechend in die folgenden Ausprägungen gegliedert werden: 


Technologische Ungewissheit 
Politische Ungewissheit 
Wettbewerbsungewissheit 
Kundenungewissheit 
Ressourcenungewissheit 


Technologische Ungewissheit beinhaltet die unzureichende Kenntnis über ein tech- 
nologisches System oder das Vorhandensein weiterer technischer Lösungen, die 
dasselbe Problem adressieren (Meijer, 2008, S. 35). In der politischen Dimension 
beschreibt Ungewissheit das Fehlen von Informationen über das Verhalten von 
Regierungen, Regimen und politischen Dominanzen im Allgemeinen. Politische 
Faktoren haben Einfluss auf den Gestaltungsspielraum von Unternehmen (Rakesh, 
2014, S. 20). Wettbewerbsungewissheit bezieht sich auf die mangelnde vollstän- 
dige Kenntnis hinsichtlich der Konkurrenz und ihrer Produkte sowie Strategien, um 
am Markt zu bestehen (Yadav et al., 2006, S. 60). Das fehlende vollständige Wis- 
sen über die Nutzerakzeptanz und Nachfrage, bezogen auf ein Produkt oder eine 
Dienstleistung, werden als Kundenungewissheit klassifiziert (Gentry et al., 2013, 
S. 528). Ressourcenungewissheit stellt die Ungewissheit über die Verfügbarkeit von 
finanziellen und Human-Ressourcen dar (Meijer, 2008, S. 37). 

Sarasvathy unterscheidet Ungewissheit weniger nach umweltbezogenen 
Gesichtspunkten, sondern vielmehr nach dem Wissen über mögliche Ergebnisse 
einer Entscheidung und deren zugrundeliegenden Verteilung (Sarasvathy, 2009, 
S. 26). Mit ihrer Taxonomie bezieht sie sich auf das Grundlagenwerk zur Unge- 
wissheit Risk, Uncertainty and Profit von Knight. 

Die Unterscheidung zwischen Risiko und Ungewissheit wird in Knight (1921) 
herausgestellt. Risiko wird hierbei als Fähigkeit charakterisiert, möglichen Umwelt- 
zuständen eine Wahrscheinlichkeitsverteilung zuzuordnen. Im Risikofall kann nicht 
mit Gewissheit angegeben werden, was als Nächstes passieren wird. Jedoch sind alle 
möglichen Umweltzustände bekannt, die eintreten können sowie die dazugehörige 
Wahrscheinlichkeitsverteilung (Townsend et al., 2018, S. 667). 
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Ungewissheit wird diesbezüglich nochmals in zwei Arten unterschieden. Im ers- 
ten Fall sind die möglichen Umweltzustände einer Handlung bekannt. Die Wahr- 
scheinlichkeitsverteilung, der sie unterliegen, kann allerdings nicht bestimmt wer- 
den. Im zweiten Fall sind weder die von der Entscheidung des Entrepreneurs abhän- 
gigen Eintrittswahrscheinlichkeiten der Umweltzustände bekannt, noch sind die 
möglichen Umweltzustände bekannt, die aus der Entscheidung resultieren können 
(Sarasvathy, 2009, S. 26). 

Die Differenzierung des begrifflichen Spektrums von Ungewissheit, welche für 
das Verständnis entrepreneurialer Entscheidungssituationen von zentraler Bedeu- 
tung ist, wird von Knight folgendermaßen zusammengefasst: 


„Uncertainty must be taken in a sense radically distinct from the familiar notion of 
risk, from which it has never been properly separated. [...] The essential fact is that 
‘risk’ means in some cases a quantity susceptible of measurement, while at other times 
it is something distinctly not of this character; and there are far-reaching and crucial 
differences in the bearings of the phenomena depending on which of the two is really 
present and operating. [...] It will appear that a measurable uncertainty, or ‘risk’ proper, 
as we shall use the term, is so far different from an unmeasurable one that it is not in 
effect an uncertainty at all.“ (Knight, 1921, S. 19) 


Das Treffen von Entscheidungen, in Situationen, die von knightscher Ungewissheit 
geprägt sind, bestimmen das Wesen von Entrepreneurship (Sarasvathy & Kotha, 
2001, S. 32). Durch das Vorhandensein von Ungewissheit über zukünftige Ereig- 
nisse erhalten Unternehmer die Möglichkeit, trotz bestehender Marktgleichgewichte 
Gewinne zu erzielen (Blaug, 1997, S. 444). Sie können im Sinne von Schumpeter 
(1943, S. 83) durch „schöpferische Zerstörung‘ Innovationen hervorbringen. 


2.3 Maschinelles Lernen im Kontext von Effectuation 


Der im Abschnitt 2.1 diskutierte Zusammenhang zwischen Effectuation und baye- 
sianischer Entscheidungstheorie sowie die Beziehung zwischen den verschiedenen 
Konzepten von Ungewissheit, wie sie in Abschnitt 2.2 vorgestellt wurden, bilden 
die Grundlage für die Entwicklung entscheidungsbezogener und lernbasierter Ver- 
fahren. Der Bereich des maschinellen Lernens, eine Unterkategorie der Künstlichen 
Intelligenz (Buxmann & Schmidt, 2018), umfasst eine Reihe solcher Verfahren, die 
von Ideen des Bayesianismus geprägt sind (Ghavamzadeh et al., 2015; Jun, 2016; 
Katt et al., 2019; Korb & Nicholson, 2004). Ein Ziel der Methoden des maschinellen 
Lernens ist es, menschliches Verhalten vorherzusagen und zu adaptieren (Plonsky 
et al., 2019) sowie Entscheidungen in verschiedenen Kontexten zu treffen. 
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Im Umfeld der Entrepreneurship-Forschung wird maschinelles Lernen in Ent- 
scheidungsprozessen vereinzelt angewendet (Garcia et al., 2012; Haiyan, 2018). 
Bis auf einige Ausnahmen (Vilalta et al., 2004) lässt sich der überwiegende Teil 
der Ansätze des maschinellen Lernens in drei Kategorien klassifizieren (Marsland, 
2014, S. 6; Murphy, 2012, S. 2): 


e Supervised Learning, 
e Unsupervised Learning und 
e Reinforcement Learning. 


Zur Lösung von Supervised-Learning-Problemen werden zusammengehörige 
Eingangs- und Ausgangsvariablen benötigt. Diese bilden einen Trainingsdatensatz, 
der aufgrund von Beobachtung eines Phänomens ermittelt wird und das gemeinsame 
Auftreten der Variablen repräsentiert. Werden mit x; die Eingangsvariablen und mit 
t; die Ausgangsvariablen bezeichnet, besteht ein Trainingsdatensatz aus den Tupeln 
(xi, ti) miti = 1,...,m Lerndatensätzen (Marsland, 2014, S. 15 f.). Eine Hypo- 
these h(x) soll sich dem Zielvektor ¢ möglichst genau annähern und somit erlernt 
werden. Mit h(x) können dadurch fiir Werte von x auch außerhalb der Menge der 
Trainingsdatensätze Voraussagen getroffen werden. Um die approximierende Funk- 
tion h(-) zu lernen, existieren für unterschiedliche Anwendungsfälle verschiedene 
Verfahren, wie beispielsweise die Lineare und Logistische Regression sowie unter- 
schiedliche Ausprägungen von Künstlichen Neuronalen Netzen (Mohri et al., 2018, 
S. 6 f.). Supervised Learning adressiert entsprechend Klassifizierungs- und Regres- 
sionsprobleme (Marsland, 2014, S. 6 f.). Im Kontext von Entrepreneurship gibt es 
Veröffentlichungen, die Supervised-Learning-Methoden verwenden, um unterneh- 
merische Phänomene zu beschreiben und zu erklären (Luis-Rico et al., 2020; Sabahi 
& Parast, 2020; Tan & Koh, 1996; Zekic-Susac et al., 2013). In Unsupervised- 
Learning-Problemen wird die Segmentierung von Daten behandelt. Zu den Ein- 
gangswerten von x existieren zunächst keine zuordenbaren Ausgangswerte, wie es 
fiir Supervised Learning Aufgaben mit der jeweiligen Ausgangsgröße t der Fall 
ist. Lernalgorithmen aus diesem Bereich sind bestrebt, Muster in den Eingangswer- 
ten zu erkennen, die nicht durch Strukturlosigkeit gekennzeichnet sind. Bekannte 
Verfahren zur Lösung von Unsupervised Learning Problemen und zur Clusterbil- 
dung sind k-means, Principal Components Analysis und Mixture of Gaussians. 
Methoden des Unsupervised Learnings haben ihre Entsprechung in der Statistik als 
Kerndichteschätzung (Ghahramani, 2004). In der Entrepreneurship-Literatur exis- 
tieren für diese Kategorie des Machine Learnings ebenfalls Anwendungen (Hema- 
latha & Nayaki, 2014; Nunes & Balsa, 2013; Shirur et al., 2019; Zekic-Susac 
et al., 2013). Reinforcement Learning (in Folge abgekürzt mit RIL) stellt die dritte 
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Hauptkategorie des maschinellen Lernens dar. RIL befasst sich mit dem Lernen 
von der Zuordnung von Zuständen zu Aktionen, indem eine Belohnungsfunktion 
maximiert wird. Ein Agent interagiert dabei über die Zeit mit seiner Umgebung 
und versucht eine Strategie zu erlernen. Dieses Konzept beruht auf dem Modell 
eines Markov-Entscheidungsproblems (in Folge abgekürzt mit MDP für Markov 
Decision Process) (Sutton & Barto, 2018, S. 3 f.). RIL findet insbesondere dann 
Anwendung, wenn die Steuerung eines Prozesses im Zeitverlauf erlernt werden 
soll (Szepesvari, 1998). Folglich findet RIL Anwendung beispielsweise im Bereich 
des Autonomen Fahrens, der Robotik, von Empfehlungssystemen, Chatbots, Video- 
spielen, des Ressourcen-Managements sowie autonomer Bildung (Dhingra et al., 
2017; Mandel et al., 2016; Mao et al., 2016; Theocharous et al., 2015; Yannakakis 
& Togelius, 2018; You et al., 2019; S. Zhang et al., 2019). 

Im Kontext von Entrepreneurship wendet Haiyan (2018) RIL zur Modellierung 
spieltheoretischer Abläufe zwischen Investor und Entrepreneur an, um das bestmög- 
liche Vertrauenverhältnis beider Parteien zu erlernen. Damit weist Haiyan (2018) 
nach, dass die grundsätzliche Anwendung von RIL Methoden auf prozessorientierte 
Entrepreneurship-Phänomene möglich ist. Gupta et al. (2016) nimmt Bezug auf die 
bisher varianztheoretische Betrachtung von Effectuation und fordert zur weiteren 
Theorienbildung prozessorientierte Untersuchungen. Die grundlegende prozessbe- 
zogene Natur vonRIL (Szepesvari, 1998) und der Bedarf nach einer prozesstheoreti- 
schen Analyse von Effectuation (Gupta et al., 2016) begründen den Einsatz von RIL 
zu Modellierungszwecken. Yang und Chandra (2013) fordern ebenfalls den Einsatz 
agentenbasierter Modelle unter Zuhilfenahme von Methoden der Künstlichen Intel- 
ligenz zur Beschreibung entrepreneurialen, respektive effektuativen, Verhaltens. 


2.3.1 Reinforcement Learning als Methode zur Lösung 
entscheidungstheoretischer Probleme 


In RIL versucht ein Agent innerhalb eines MDP die größtmögliche Belohnung 
zu erreichen, indem er sich durch eine Reihe von Zuständen bewegt und Aktionen 
ausführt (van Otterlo & Wiering, 2012, S. 10-15). Ein MDP ist, angelehnt an Littman 
et al. (1995), gekennzeichnet durch ein Tupel (S, A, p, r), wobei 


S... die Menge von Zuständen mit s,s’ € S 
A... die Menge von Aktionen mit a € A 

p... die Transitionsfunktion und 
r... die Belohnungsfunktion 


darstellen. 
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Die Transitionsfunktion ist definiert durch p(s’|s, a) und repräsentiert die Wahr- 
scheinlichkeit vom Zustand s und Ausführung der Aktion a durch den Agenten in 
den neuen Zustand s’ zukommen. Für die Belohnungsfunktionistr : Sx Ax S > R 
mit der erwarteten unmittelbaren Belohnung r(s’, a, s). Betrachtet man ein MDP 
als zeitlichen Prozess mit Zeitpunkten ¢ = 1,2,..., wobei s; € S die Repräsen- 
tation des Zustandes der Umgebung, a; € A die gewählte Aktion des Agenten 
und r; = F(St+1, 4r, St) die erhaltene Belohnungen zum Zeitpunkt ¢ darstellen, 
gilt zudem die Markov-Eigenschaft. Diese beschreibt die Annahme, dass Zustands- 
übergänge lediglich vom zuletzt besuchten Zustand abhängig und unabhängig von 
vorhergehenden Aktionen oder Zuständen sind (Mocanu et al., 2018). So gilt bei- 
spielsweise p(s’|s,a) = P (s141 = Ss | = S, at = a) = Diät = S'|St = S, at = 


a, St-1 = Š, Qy-) =). 

Die weitere Beschreibung der Bestandteile eines MDP beruht auf den Ausfiih- 
rungen von Otterlo und Wiering (2012). Demnach ist ein Zustand s der Menge S 
eine einzigartige Repräsentation von Ausprägungen von Merkmalen. Die Merk- 
male besitzen dabei nur den Umfang, der für die Modellierung und Lösung des 
zu behandelnden Problems relevant ist. Beispielsweise kann die gesamte Figuren- 
Konfiguration auf einem Schachbrett zu einem beliebigen Zeitpunkt eines Spiels 
einen Zustand darstellen. 

Aktionen aus der Menge A stellen Möglichkeiten dar, um von einem Zustand s in 
einen anderen Zustand s’ zu gelangen. Die Menge der Aktionen, die innerhalb eines 
Zustandes ausgeführt werden können, wird mit A(s) für einen bestimmten Zustand 
s € S notiert, wobei A(s) C A. Für die Transitionsfunktion p gilt zudem die Bedin- 
gung, dass für alle Zustände s € Sundalle Aktionena e A(s) yes p(s'|s,a) = 1 
(van Otterlo & Wiering, 2012). 

RIL beinhaltet eine Reihe von Algorithmen zur Lösung des MDP. Zentrale Ele- 
mente in RIL-Problemen sind Agenten, die versuchen, innerhalb einer Umgebung 
durch das Erhalten von Belohnungen ein Verhalten zu erlernen. Dieser Zusam- 
menhang lässt sich vereinfacht in Abbildung 2.1 darstellen. Mitchell (1997, S. 2) 
beschreibt diesbezüglich konkret, wodurch ein Lernproblem gekennzeichnet ist: 


„A computer program is said to learn from experience E with respect to some class of 
tasks T and performance measure P, if its performance at tasks in T, as measured by 
P, improves with experience E" 


Die von Mitchell (1997) dargestellte Erfahrung E stellt im Kontext von RIL das 
Erhalten einer Belohnung r(s’, a, s) sowie die Beobachtung eines Zustandes s dar. 
Zur Bestimmung der Aufgabe T und des LeistungsmaBes P werden in RIL wei- 
tere Konzepte eingeführt. Dazu gehören die Policy (zu deutsch etwa Strategie) 


28 Aspekte entscheidungstheoretischer Grundlagen im Kontext von Effectuation 


Umgebung 


Aktion Belohnung Zustand 


a d S, 


Agent 


Abb. 2.1 Wechselwirkung zwischen Agent und Umgebung in einem RIL-Problem. (Modi- 
fiziert nach Amiri et al. (2018)) 


und die Value-Funktion (zu deutsch etwa Wertfunktion). Eine Policy z stellt 
in diesem Zusammenhang die Zuordnung von Zuständen s € § der Umgebung 
zu Aktionen a € A(s) dar. Verfolgt ein Agent eine Policy m zum Zeitpunkt t, 
dann ist x (a|s) die Wahrscheinlichkeit dafür, dass a, = a, wenn s; = s, so dass 
x :SxA— [0, 1]. Die Policy z(a|s) wird dann allgemein eine stochastische Policy 
genannt. Für den Fall, dass x (a|s) = 1, wenn zum Zeitpunkt t a; = a und s; = s, 
und x (a|s) = 0, wenn a, Æ a und s; = s, ergibt sich m : S — A. Die Policy 7 (s) 
wird deterministische Policy genannt. Eine Policy ist der Kern eines RIL-Agenten 
und bestimmt sein inhärentes Verhalten. Sutton und Barto (2018, S. 58) schreiben 
konkret, dass „RIL methods specify how the agent’s policy is changed as a result of 
its experience.“. Eine Value-Funktion vz (s) beschreibt, welchen Gesamtbetrag an 
Belohnungen ein Agent über die Zeit erwarten kann, wenn er im Zustand s startet 
und anschließend der Policy x folgt. Damit wird die langfristige Erwünschtheit von 
Zuständen ausgedrückt, unter Berücksichtigung der zu erwartenden Zustände und 
den damit verbundenen Belohnungen. Ziel des Agenten ist es demzufolge, kumu- 
lierte Belohnungen zu maximieren, die er auf lange Sicht erhält (Sutton & Barto, 
2018). Dieses Ziel entspricht der von Mitchell (1997) definierten Aufgabe T inRIL. 

Die weiteren Ausführungen zu RIL-Konzepten beruhen auf einer nach Sut- 
ton und Barto (2018) angepassten Notation zur Bestimmung der (Action-)Value- 
Funktion und Policy. Zur Entwicklung der beiden Konzepte ist es notwendig, das 
Ziel des Agenten zu formalisieren. Die erwartete Gesamtbelohnung CG, kann als 
Funktion der Sequenz von erhaltenen Belohnungen nach Zeitpunkt ¢ und dem fina- 
len Zeitpunkt T mit 


Gr = rn4ı Hre + rr +... HTT (2.7) 
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definiert werden. Die Bestimmung der Gesamtbelohnung G; nach der Vorschrift 
(2.7) ist auf episodische RIL-Probleme mit einem Endzustand zum Zeitpunkt T 
anwendbar. T ist aufgrund der stochastischen Natur eines MDP respektive RIL- 
Problems eine Zufallsvariable, die von Episode zu Episode variiert. 
Demgegenüber stehen Anwendungen, die fortlaufende Aufgaben beschreiben. 
Eine Gesamtbelohnung G; kann dann nicht mehr wie in (2.7) bestimmt werden, 
da bei unendlichem Zeithorizont die zu maximierende Gesamtbelohnung G, im 
Allgemeinen ebenfalls unendlich wird. Zur Lösung dieses Problems wird ein Dis- 
kontierungsfaktor y eingeführt, für den 0 < y < 1 gilt. Ein Agent wird folglich 
eine Aktion a; € A(s) so wählen, dass die erwartete diskontierte Gesamtbelohnung 


oo 
Gr = rei + yri + y r3 to =) E (2.8) 
k=0 


maximiert wird. Belohnungen, die sich k Zeitschritte in der Zukunft befinden, wer- 
den entsprechend nur noch mit y*=! gewichtet. Für den Fall, dass y < 1 gewählt 
wird, liefert die unendliche Summe aus Gleichung (2.8) einen endlichen Wert. Setzt 
man y = 0, wird der Agent lediglich gewillt sein, die unmittelbare Belohnung r; +1 
zu maximieren. Je größer y gewählt wird, desto weitsichtiger wird der Agent im 
Hinblick auf die Einbeziehung künftiger Belohnungen. Darauf aufbauend kann die 
Gleichung aus (2.8) wie folgt zusammengefasst werden: 


Gr =r + Yr + Vir + Yerer4 ur 
=n41+Y (r42 +yr43+ e ZE zk -) 
=nr41 + yGr41- (2.9) 


Zum Zwecke einer einheitlichen Notation von episodischen und fortlaufenden Auf- 
gaben kann die Gesamtbelohnung G, weiterhin mit 


T 
Gi = X yin (2.10) 
k=t+1 


inklusive der Fälle, dass entweder y = 1 oder T = ov gesetzt wird, formuliert 
werden. 

Die eben erläuterten Vorschriften zur Bestimmung der Gesamtbelohnung ist zur 
Ermittlung der Value-Funktionen und Policy des Agenten von zentraler Bedeutung. 
Damit lässt sich das von Mitchell (1997) definierte Lernproblem auf RIL übertragen. 
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Die Unterschiede zwischen verschiedenen Policies stellen demnach einen Lernef- 
fekt dar, wobei das Leistungsmaß P in RIL, zur Messung der Güte des Lerneffekts, 
im Folgenden anhand der Ausfiihrungen von Sutton und Barto (2018) beschrieben 
werden soll. 

Die Value-Funktion vy (s) eines Zustandes unter der Policy z ist die erwartete 
Gesamtbelohnung beim Start in Zustand s und der darauffolgenden Anwendung 
von T. Vy (5) lässt sich mit 


CO 
vr (S) = Er [Gılsı = s] = Er > vers = | (2.11) 
k=0 


formulieren. Da die Policy x sowie die Gesamtbelohnung G; stochastisch sind, wird 
mit E, [-] der Erwartungswert einer Zufallsgröße bezüglich der durch x gegebenen 
Verteilung ausgedrückt. vz (s) ist eine Zufallsvariable. 

Darauf aufbauend kann die erwartete Gesamtbelohnung für die Ausführung der 
Aktion a im Zustand s und danach der Policy x zu folgen mit ge Lë, a) notiert 
werden. Formal lässt sich dies durch 


Ar A, rz 


DC 

qa (S, a) =. or [Gilst = S, dt = a] = r p Ya oan ae 
k=0 

(2.12) 


ausdrücken. Die Unterscheidung von vy Le) und qy ist für die spätere Evaluierung 
von Lernalgorithmen von Bedeutung und kann wie folgt ausgedriickt werden: 


va (s) = X 7 (als) qz ($, a). (2.13) 


acA 


Die Value-Funktion v„ (s) kann zudem konkretisiert werden, indem die Transi- 
tionswahrscheinlichkeiten p eines MDP sowie die Verteilungsfunktion z(a|s) in 
Gleichung (2.11) eingesetzt werden: 


va (8) =Ex Ile = s] 

=Ex [r1 + y Grils: =s] 

=) n(aļs) > pts, a) (r(s', a, s) + yEr[Gi+ilsıH = 5'1) 
a s! 


= Kä a (a|s) KS p(s’ |s, a) SCH a,S) + YO (Gu VseSs (2.14) 


2.3 Maschinelles Lernen im Kontext von Effectuation 31 


(2.14) stellt die von Bellman (1957) formulierte rekursive Bellman-Gleichung dar. 
Diese ermöglicht es, für endliche MDP eine optimale Policy zu bestimmen. End- 
liche MDP sind dadurch gekennzeichnet, dass die dazugehörigen Zustands- und 
Aktionsmengen sowie die Menge der Belohnungen endlich viele Elemente enthal- 
ten. 

Gesucht wird nun für jeden Zustand s € S eine Policy, die die zugehörige Value- 
Funktion maximiert. Diese wird als optimale Policy bezeichnet und mit 27 notiert. 
Es ergibt sich die optimale Value-Funktion 


Ux (8) = Max Ur (s) (2.15) 


für alles € S. 
Für die optimale Action-Value-Funktion r* gilt analog 


qx(8,a) = max qr Le, a) (2.16) 


für alles € S unda € A(s). Weiterhin ergibt sich der Zusammenhang zwischen qx 
und v,: 


dl, a) = dE = 54 = 0], (2.17) 
Dieser Zusammenhang lässt sich auch wie folgt erklären: 


Ux(s) = max g4(S, a) 
aeA(s) 


= max E,«[G;|s; =s,a; =a] 
aeA(s) 


= max E,» [r 1 +y Gilst = S, ar =a] 
acA(s) 


= max E + VV (5741) [Sp = S, at = 
PTO, [r YvalsıH ls: = S, ar a] 
Gs Ile. ' a, ^). 2.18 
EK Is, a) lei, a, s) + emie (2.18) 
A 


Die Gleichung (2.18) stellt die Bellman-Optimalitäts-Gleichung dar. Analog gilt für 
die optimale Action-Value-Funktion qx: 
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9x(5,a) = [ris 1 + 7 Vx (S41) [91 = S, ar = a] 


Ar = S, dt =a] 


3 p(s'|s, ai (e a,s)+y max, der ol (2,19) 
a’€A(s’ 


1 


= lun: max  qx(s;41, 4’) 


a’ €A(sr41) 


D 


Das Lösen der Optimalitätsgleichungen v, und q, und der damit verbundenen opti- 
malen Policy 7* beschreibt das zentrale Lernproblem in RIL. Die beiden Funktionen 
v und q stellen in diesem Zusammenhang das von Mitchell (1997) definierte Leis- 
tungsmaß P dar. Nähern sich die Value-Funktionen v bzw. q den Fixpunkten v, bzw. 
qx an, ist der Agent im Begriff zu lernen. Zum Lösen der Bellman-Optimalitäts- 
Gleichungen existieren eine Reihe von Verfahren, die in Abschnitt 2.3.2 kurz vor- 
gestellt werden. 


2.3.2 Lösungsverfahren zur Bestimmung optimaler Policies in 
Reinforcement Learning 


Klassische Verfahren zur Lösung von RIL-Problemen sind Algorithmen aus dem 
Bereich des Dynamic Programming (Busoniu et al., 2017). Verfahren dieser Art 
setzen voraus, dass alle Bestandteile eines MDP vollständig zur Verfügung stehen. 
Demnach müssen neben dem Zustandsraum, der Belohnungsfunktion und dem Akti- 
onsraum auch die Transitionswahrscheinlichkeiten bekannt sein, welche in realen 
zu lösenden Problemen selten bekannt sind (Barto, 1995). 

Dynamic Programming basiert auf dem Konzept der Generalisierten Policy Itera- 
tion, bei der die Policy Evaluation und die Policy Verbesserung im stetigen Wechsel 
stattfinden, um die Konvergenz hin zu einer optimalen Value-Funktion und optima- 
len Policy zu erreichen. Während der Policy Evaluation wird diesbezüglich ange- 
strebt, eine Value-Funktion mit einer fixen Policy zu lernen. Im Fall der Policy Ver- 
besserung wird eine Policy dahingehend angepasst, dass sie Aktionen aufnimmt, 
die hinsichtlich der aus der Policy Evaluation ermittelten Value-Funktion am besten 
sind (Sutton & Barto, 2018). 

Formal kann ein Approximationsschritt der Policy Evaluation für fixierte Policy 
m als 
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vki (s) = Ex [r1 + YorGıHı)lsı = s] 
= 3 zial) > p(s’ |s, a) (r(s’, a,s)+ eu te (2.20) 


für alle s € A ausgedrückt werden. Die Folge {vg} konvergiert gegen vy für k > © 
(Bertsekas, 2011). Prozedural kann dieses Iterationsverfahren wie in Algorithmus 1 
umgesetzt werden. 


Algorithmus 1 Schätzung der Value-Funktion V © vr 


1: procedure ITERATIVE POLICY EVALUATION(T) 
2: @>0 > Schwellwert zur Bestimmung der Genauigkeit der Schatzung 
Vis) —RVseS 
V(s = terminal) < 0 
repeat 
A <0 
for each s € S do 
v< V(s) 
Vis) — Aa tals) A y p(s’ |s, a) [r(s’, a,s)+ yves] 
10: A < max(A, |v — V (s)|) 
11: end for 
12: until A <9 
13: end procedure 


dë Ee Erde 


Die Policy Evaluation und die damit einhergehende Berechnung der Value-Funktion 
dient der Ermittlung besserer Policies (Mansour & Singh, 1999). Eine Policy 7 (s)’ 
ist nicht schlechter als x, wenn für alles € A 


qa (S, 2 Gell > vr (8) (2.21) 


gilt. Eine bessere oder mindestens genauso gute Policy sr’ kann im Allgemeinen 
mittels 


ml Lei := arg max qz (s, a) 


acA(s) 

= arg max dE + yY Va (S441) |S} = S, ar = a] (2.22) 
aeA(s) 

=arg max 3 > p(s’ |s, a) (r(s’, a, S) + Ux (Ss ‘)) (2.23) 


aeA(s) vi 
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bestimmt werden, da die Gleichungen (2.22) und (2.23) die Bedingungen, die sich 
aus (2.21) ergeben, erfiillen. 

Dieser als Policy Iteration bezeichnete Wechsel zwischen Policy Evaluation und 
Policy Verbesserung kann durch das Value-Iterationsverfahren verktirzt werden und 
somit schneller konvergieren (Sutton & Barto, 2018). Es lässt sich für alle s € S 
durch 


v = max E +yv =S,a = 
k+1(5) a [rr tient 1s: = s, ar = a] 
= max "Is, ' a, S) Leute 2.24 
ER Is, a) (r(s', a, s) + ste (2.24) 
S 
formalisieren. 


Grundsätzlich können das Policy-Iterations- sowie Value-Iterationsverfahren als 
Generalisierte Policy Iteration kategorisiert werden. Die Wechselwirkungen zwi- 
schen Policy Evaluation und Verbesserung werden in Abbildung 2.2 illustriert. 
Nahezu alle Lernverfahren in RIL lassen sich als Generalisierte Policy Iteration 
beschreiben (Sutton & Barto, 2018). 

Dynamic Programming wird dem Bereich der Model-Based-Methoden zuge- 
ordnet. Wie bereits erwähnt ist es bei der Verwendung diesbezüglicher Verfah- 
ren notwendig, alle Bestandteile eines MDP zu kennen (F. L. Lewis & Vrabie, 
2009). Jedoch sind die Transitionswahrscheinlichkeiten sowie die Belohnungsfunk- 


V ys We 


a= argmax,(v) 


Abb. 2.2 Generalisierte Policy Iteration. (Modifiziert nach Sutton und Barto (2018)) 
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tion nicht immer gegeben (Sutton & Barto, 2018). Zur Lösung von RIL-Problemen, 
bei denen kein vollständiges Wissen der Umgebung vorhanden ist, werden Model- 
Free-Methoden angewandt. Diese Verfahren beruhen auf stichprobenartigen Erfah- 
rungen, die ein Agent durch sequentielle Interaktion mit seiner Umgebung erlangt 
(Strehl et al., 2006). Model-Free-Methoden wiederum lassen sich in On- und Off- 
Policy-Techniken einteilen. Dazu gehören nach Sutton und Barto (2018) beispiels- 
weise: 


First-Visit Monte Carlo Steuerung (On-Policy) 
Importance Sampling (Off-Policy) 

Monte Carlo Vorhersage und Steuerung (Off-Policy) 
Ein-Schritt Temporal-Difference-Learning (Off-Policy) 
SARSA (On-Policy) 

Q-Learning (Off-Policy) 


On-Policy-Verfahren dienen dazu, eine Policy zu verbessern, die gleichzeitig auch 
vom Agenten genutzt wird, um Entscheidungen bezüglich der auszuführenden 
Aktionen zu treffen. Bei Off-Policy-Methoden hingegen wird zwischen der Policy, 
die gelernt werden soll (Ziel-Policy), und der Policy, die für das Entscheidungs- 
verhalten des Agenten verwendet wird (Verhaltens-Policy), unterschieden (Poole & 
Mackworth, 2017, Abschn. 11.3.6). Ziel-Policies enthalten im Allgemeinen explo- 
rative Bestandteile, während Verhaltens-Policies exploitativ hinsichtlich der bisher 
gelernten Policy sind. Eine konkrete Anwendung einer Off-Policy-Strategie wird in 
Abschnitt 4.2.2 vorgestellt. 


2.3.3 Reinforcement Learning im entrepreneurialen Kontext 


Um die in den Abschnitten 2.3.1 bis 2.3.2 vorgestellten RIL-Konzepte im Kon- 
text entrepreneurialer Problemstellungen zu veranschaulichen, soll im Folgenden 
ein Beispiel entwickelt werden, das sich am Recycling Robot Problem von Connell 
(1989) orientiert und die Ideen von Csaszar und Levinthal (2016) zur Produktreprä- 
sentation adaptiert. 

Ein entrepreneurialer Agent hat die Aufgabe, ein Produkt erfolgreich am Markt 
zu etablieren. In diesem Zusammenhang stellt der Markt die Umgebung des Agen- 
ten dar. Anhand seiner zur Verfügung stehenden Mittel trifft der Agent Entschei- 
dungen darüber, wie mit dem Produkt umgegangen werden soll. Der Zustands- 
raum AN umfasst hierbei die Zustände {hoch, gering}, die sich auf die dem 
Agenten zur Verfügung stehenden Mittel beziehen. In jedem Zustand kann der 
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Agent entscheiden, ob er ein {Produkt anpassen}, ein {Produkt nicht 
verändern} oder ein {neues Produkt entwickeln} möchte. Im Bei- 
spiel wird die Annahme getroffen, dass der entrepreneuriale Agent bei einem Mit- 
telbestand von {hoch} nicht daran interessiert ist, ein neues Produkt zu erstellen. 
Demnach ergeben sich die Aktionsmengen A(hoch)={Produkt anpassen, 
Produkt nicht verändern} und A(gering)={Produkt anpassen, 
Produkt nicht verändern, neues Produkt entwickeln}. 

Der Agent erhält eine positive Belohnung, wenn sein Produkt Nachfrage am 
Markt erzeugt. Dies erreicht er am besten, indem er sein Produkt kontinuierlich 
anpasst und verbessert. Dieses Vorgehen führt jedoch zu einer Verringerung seiner 
zur Verfügung stehenden Mittel. Lässt der Agent das Produkt so wie es ist, verringern 
sich auch nicht seine Mittel. Im Falle, dass der Agent im Begriff ist sein Produkt 
anzupassen und ihm bei diesem Vorgang die Mittel ausgehen, ist er gezwungen, 
neue Mittel zu beschaffen. Tritt dies ein, wird der Agent durch Erhalt einer negativen 
Belohnung bestraft. 

Die Wahrscheinlichkeit dafür, dass ein Agent, ausgehend von vielen zur Ver- 
fügung stehenden Mitteln und einer Produktanpassung, immer noch viele Mittel 
zur Verfügung hat, beträgt a; dafür dass er nach der Anpassung nur noch wenige 
Mittel hat, beträgt sie 1 — a. Besitzt der Agent zunächst wenige Mittel, nimmt 
eine Produktanpassung vor und besitzt danach immer noch wenige Mittel, ist diese 
Wahrscheinlichkeit £. Für den Fall, dass er mit den wenigen Mitteln eine Produktan- 
passung vornimmt und ihm die Mittel ausgehen, beträgt diese Wahrscheinlichkeit 
1 — £. Folglich ist der Agent gescheitert und er erhält eine Belohnung (Bestra- 
fung) von rscheitern- Er ist nun gezwungen neue Mittel zu beschaffen, um eine 
Unternehmung mit einem neuen Produkt starten zu können. Im entwickelten Bei- 
spiel beträgt entsprechend die Wahrscheinlichkeit dafür, dass der Agent einen hohen 
Mittelbestand hat, unter der Voraussetzung, dass er zunächst wenige Mittel hatte und 
ein neues Produkt entwickeln will, 1. Der Agent erhält eine Belohnung von 0. Für 
die erwarteten Belohnungen "Produkt anpassen» FProdukt nicht verändern und 
Fscheitern gilt Fprodukt anpassen > /Produkt nicht verändern > Fscheitern- 

Die Transitionswahrscheinlichkeiten sowie die erwarteten Belohnungen des bei- 
spielhaften MDP sind in Tabelle 2.1 dargestellt. Die Tabelle enthält jede Kombina- 
tion von Zustandsübergängen, die aus s € A und der Aktion a € A(s) möglich sind. 
Für Zustandsübergänge, deren Transitionswahrscheinlichkeit p(s’|s, a) = 0 sind, 
sind keine Belohnungen definiert. 

Zur Illustration der Transitionen sind zudem die Dynamiken des beispielhaf- 
ten MDP in Abbildung 2.3 dargestellt. Ein großer weißer Kreis mit Text in dessen 
Inneren repräsentiert einen Zustandsknoten, während ein kleiner, schwarz ausge- 
füllter Kreis einen Aktionsknoten symbolisiert. Pfeile stellen in diesem Kontext 
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Tabelle 2.1 Tabellarische Darstellung eines beispielhaften MDP 


s a DN Diels, ail r(s’,a,s) 

hoch Produkt anpassen hoch a Fprodukt anpassen 

hoch Produkt anpassen gering l-a Fprodukt anpassen 
gering) Produkt anpassen hoch 1-Bß Fscheitern 

gering| Produkt anpassen gering £ Fprodukt anpassen 

hoch Produkt nicht verändern hoch 1 Yprodukt nicht verändern 
hoch Produkt nicht verändern gering| 0 = 

gering| Produkt nicht verändern hoch 0 _ 

gering| Produkt nicht verändern gering| 1 Tprodukt nicht verändern 
gering| neues Produkt entwickeln| hoch 1 0 

gering| neues Produkt entwickeln gering 0 — 


1, Produkt nicht verändern l=; E 


Produkt nicht verändern Produkt anpassen 


neues Produkt entwickeln 


gering 


1,0 


Produkt nicht verändern 


Produkt anpassen 


ar, 1-a 1, N rodukt nicht verändern 


2" Produkt anpassen EE EEN 


Abb. 2.3 Darstellung des beispielhaften Transitionssystems. (Modifiziert nach Sutton und 
Barto (2018)) 


die Ubergiinge, mit ihren Wahrscheinlichkeiten und erwarteten Belohnungen, von 
einem Zustandsknoten und des jeweilig gewählten Aktionsknotens in den von da aus 
erreichbaren Zustandsknoten dar. Zur Bestimmung der besten Policy fiir das darge- 
stellte Problem wird die Bellman Optimalitätsgleichung aus 2.18 auf das entwickelte 
Beispiel angewendet. Die Zustände hoch und gering werden aus Gründen der 
Ubersichtlichkeit mit h und g, die Aktionen Produkt anpassen, Produkt 
nicht verändernundneues Produkt entwickelnmitan,nvundne 


38 Aspekte entscheidungstheoretischer Grundlagen im Kontext von Effectuation 


abgekürzt. Für die zwei Zustände D und g ergeben sich folglich die Gleichungen 
v,(h) und v,(g) mit 


p(h|h, an)[r(h, an, DI + yu] + p(g|h, an)[r(h, an, g) 
+yvx(9)], 
p(h|h,nv)[r(h,nv,h) + yvs(h)] + p(g|h, nv)[r(h, pa, ai 
+yvx(g)] 


v.(h) = max 


Hax &lran + yv UD + (1 — æ)[ran + yvx(g)], 
[roy + yv (h)] + O[fny + yvx(g)] 
| Tan + ylævs (h) + (1 — Geh 
max 
Tny + Yvr(h) 


bzw. in zusammengefasster Form 


Bran + Fscheitern(l — 6) + yI - B)vx(h) + Bol, 
vs(g) = max Tny + YVx(Q), 
yv (h) 


Es ergibt sich folglich für jede Kombination aus a, 8 und y sowie Fan, ny und 
Fscheitern Mit 0 < œ, < l undO < y < 1 jeweils ein Wertepaar v,.(h) und 
vx(g), das gleichzeitig diesen beiden Gleichungen genügt. 

Das entwickelte Beispiel veranschaulicht, dass RIL und dessen Funktionsweise 
(vgl. Abschnitte 2.3.1 und 2.3.2) als Modellierungsmethodik für eine entrepreneu- 
riale Problemstellung anwendbar ist. Besonderheiten, die für die weitere Modellie- 
rung entrepreneurialen Entscheidens notwendig sind, basieren auf der Betrachtung 
der Umgebungsdynamik. Sofern dem entrepreneurialen Agenten die Transitions- 
wahrscheinlichkeiten der Umgebung bekannt wären, wäre er in der Lage, anhand 
der dargestellten optimalen Value-Werte einer optimalen Policy zu folgen. Häufig 
sind dem Agenten diese Wahrscheinlichkeiten nicht bekannt und die Anwendung 
von Model-Free-Methoden kommt zum Tragen. Der Einsatz eines Verfahrens aus 
dieser Methodenklasse wird in Kapitel 4 thematisiert. Dabei wird der Bezug zu 
Abschnitt 2.2 hergestellt. Das Konzept der Ungewissheit — als zentrales Element 
entrepreneurialen Entscheidens — wird in Verbindung mit dem Modellierungsan- 
satz der Model-Free-Methoden diskutiert. 
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Evaluierung bestehender Modellierungs- 3 
und Simulationsansätze im Kontext von 
Effectuation 


Die Auseinandersetzung mit bestehenden Konzepten zur Modellierung von Effec- 
tuation dient einerseits einer Annäherung an die Forschungsfrage und andererseits 
der methodischen Aufarbeitung der Ansätze. Die in diesem Kapitel behandelten 
Simulationsmodelle von Mauer et al. (2017), Welter und Kim (2018) und Eberz 
(2018) werden daher zunächst beschreibend dargestellt und deren Wirkungsweisen 
im Kontext des realen entrepreneurialen Phänomens erläutert. Darauf aufbauend 
erfolgen unter Abwägung des Erkenntnisnutzens die Verifikation und mathemati- 
sche Formalisierung und Modellierung. Anschließend werden die Ergebnisse der 
bestehenden Studien kritisch evaluiert und mit den aus replizierten Implementie- 
rungen gewonnenen Ergebnissen verglichen. 


3.1 Deskriptive Analyse der Modellierungs- und 
Simulationsansätze 


Die Beschreibung der von Mauer et al. (2017), Welter und Kim (2018) und Eberz 
(2018) entwickelten Modelle erlaubt, deren Aufbau und Wirkungsweise transparent 
zu machen. Zudem wird dadurch die Grundlage geschaffen, um eine Gegenüberstel- 
lung zu ermöglichen. Die aus der deskriptiven Analyse gewonnenen Erkenntnisse 
dienen der Entwicklung eines eigenen generalisierten und verbesserten Ansatzes. 


Ergänzende Information Die elektronische Version dieses Kapitels enthält 
Zusatzmaterial, auf das über folgenden Link zugegriffen werden kann 
https://doi.org/10.1007/978-3-658-39251-2_3. 


© Der/die Autor(en) 2023 41 
M. Sterzel, Effectuation entwickeln, 
https://doi.org/10.1007/978-3-658-39251-2_3 


42 Evaluierung bestehender Modellierungs- und Simulationsansatze im Kontext ... 


3.1.1 Simulationsmodell nach Mauer et al. (2017) 


Mauer et al. (2017) untersuchen in ihrer Arbeit die Rahmenbedingungen zweier 
entrepreneurialer Suchprozesse im Kontext von Isotropie, Ziel-Ambiguität und 
Unvorhersagbarkeit mit Hilfe von Agent Based Modeling. Sie ermitteln und verglei- 
chen die Leistungsfähigkeit steuerungs- und vorhersagebasierter Suchalgorithmen 
im unternehmerischen Problemraum. Ein vohersagebasierter Suchprozess repräsen- 
tiert diesbezüglich das Konzept kausaler Logik, während ein steuerungsbasierter 
Suchprozess das Konzept von Effectuation widerspiegelt. Ziel der Entwicklung des 
Modells ist die Verbesserung des Entrepreneurship-Theoriengebildes und die nuan- 
cierte Darstellung der Beziehung zwischen entrepreneurialer Suche und Umgebung. 

Die in Maueretal. (2017) angestrebte Theorienbildung basiert aufden Konzepten 
der stochastischen Prozessmodellierung und der agentenbasierten Simulation. Als 
Grundlage für die Entwicklung wurden insbesondere die Arbeiten von Davis et al. 
(2009), Gilbert und Troitzsch (2005) und Gilbert (2007) genutzt. 

Davis et al. (2009) behandeln vorrangig die Zusammenhänge zwischen Struk- 
tur einer Organisation, deren Leistungsfähigkeit und der vorhandenen Umgebung. 
Die Autoren fanden heraus, dass mit wachsender Unvorhersagbarkeit die optimale 
Struktur, im Sinne der bestmöglichen Reaktion auf die Umgebung unter Einschrän- 
kung der möglichen Aktionen, einer Unternehmung abnimmt. Um diesen Zusam- 
menhang zu untersuchen, wurden Methoden der stochastischen Prozessmodellie- 
rung genutzt. Die Wahl dieser Modellierungsform liegt unter anderem in der Abbild- 
barkeit von improvisierten Aktionen, unternehmerischen Gelegenheiten und den 
Umgebungsdimensionen Geschwindigkeit und Ambiguität begründet. Teilaspekte 
des Modellierungsansatzes finden auch in Mauer et al. (2017) Verwendung. 

Gilbert und Troitzsch (2005) stellen ein Grundlagenwerk zur Verfügung, in dem 
sie den Zusammenhang zwischen Sozialforschung und Simulation herausstellen. 
Darüber hinaus diskutieren sie eine Reihe verschiedener Simulationsmodelle, die 
zum wissenschaftlichen Erkenntnisgewinn in der Sozialforschung angewendet wer- 
den können. 

In Gilbert (2007) wird die Funktionsweise und der Aufbau agentenbasierter 
Modelle vorgestellt. Ein Großteil der Agent Based Models wird laut Gilbert als 
agent automata modelliert. Dabei ist 


Ar (S, L) 


als Agenten-Automat, bestehend aus den zeitlich geordneten Zuständen in S und 
Regeln L, definiert, wobei 
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S = (S+) fürt =1,...,n 
mit 


S = Folge von Zuständen über die Zeit aus einer Menge diskreter Zustände 
der Mächtigkeit n 
S; Zustand zum Zeitpunkt t 


und 
L: (St, 1) > Sty 
mit 
L = Regel, die eine Zustandsänderung mit Änderung der Zeit von 
t — t + 1 bewirken kann 
I; = Input eines anderen Automaten oder externen Stimulus zum 
Zeitpunkt t 
gilt. 


Mauer et al. (2017) machen sich die Erkenntnisse aus den Arbeiten zur sto- 
chastischen Prozessmodellierung und Gestaltung von agentenbasierten Modellen 
zu Nutze. Dabei beziehen sie sich auch auf exemplarische Studien von Almirall 
und Casadesus-Masanell (2010) oder Keyhani et al. (2014) aus dem Bereich der 
Strategie- und Entrepreneurship-Forschung, die Simulationsmethoden anwenden. 
Diese werden an dieser Stelle nicht näher beschrieben. 

Bereits Davis et al. (2007) geben in ihren Ausführungen Hinweise, wie die 
Anwendung von Simulationsmodellen zur Theorienbildung beitragen kann. Dabei 
gehen sie auf den Auswahlprozess des für die Theorienentwicklung geeigneten 
Simulationsmodells ein und empfehlen Entscheidungskriterien. Mauer et al. (2017) 
folgen bei der Entwicklung und Vorstellung des Simulationsmodells nun dem durch 
Davis et al. (2007) beschriebenen Vorgehen, klammern allerdings die abschließende 
Validierung der eigenen Ergebnisse mit empirischen Daten anderer Untersuchun- 
gen aus. Die Auswahlschritte für ein geeignetes Simulationsmodell und die Ver- 
wendungsaspekte dessen sind nach Davis et al. (2007) folgende: 


e Bestimmung der Forschungsfrage 
e Identifizierung eines einfachen Theoriengerüsts 
e Wahl eines Simulationsansatzes, der die Forschungsfrage adressiert 


44 Evaluierung bestehender Modellierungs- und Simulationsansatze im Kontext ... 


Entwicklung der rechnerischen Darstellung des Ansatzes 
e Verifizierung der rechnerischen Darstellung durch Überprüfung auf Erfüllung 
der Anforderungen 
Experimente zum Zweck der Theorienbildung 
Validierung der Simulationsergebnisse mit empirischen Daten 


Aufbauend auf den Erkenntnissen der verwendeten Literatur haben Mauer et al. 
(2017) für die Simulation ein agentenbasiertes Modell entwickelt, das eine unterneh- 
merische Aufgabe lösen soll. Die Agenten im Simulationsmodell entwickeln eine 
Produkt- oder Dienstleistungsidee bis zur Bereitstellung im Konsumentenmarkt und 
werden durch den Beobachter anhand des sogenannten Market-Fits bewertet. Das 
Modell wird im zeitlichen Bereich zwischen Auftreten einer grundlegenden Idee 
als mentale oder theoretische Repräsentation eines Wertes für eine Unternehmung 
und dem tatsächlichen Markteintritt angewandt. 

Die Überlegungen zu den im Simulationsmodell dargestellten Produkt- und 
Dienstleistungsideen fußen auf den Vorschlägen von Csaszar und Levinthal (2016). 
In diesem Zusammenhang ist eine mentale Repräsentation als geistiges Modell der 
Realität eines Individuums zum Treffen von Vorhersagen über die Realität zu verste- 
hen. Diese werden durch N Strategiemöglichkeiten modelliert. Als Beispiel für eine 
mentale Repräsentation mit N = 3 Strategiedimensionen verwenden die Autoren 
ein Automobil. Als Vektor ausgedrückt bedeutet die Konfiguration (1,0, 1) bei- 
spielsweise, dass das Automobil ein großes Chassis, einen kleinen Motor und dicke 
Wände haben könnte. 

Das Konzept der mentalen Repräsentation mit verschiedenen Strategiemöglich- 
keiten übertragen Mauer et al. (2017) auf ihr Simulationsmodell zur Darstellung von 
Artefakten, die sich als Produkte oder Dienstleistungen mit verschiedenen Eigen- 
schaften manifestieren können. Mathematisch werden diese als n-Tupel modelliert 
und als Vektor mitn Komponenten dargestellt. Eine Komponente des Vektors reprä- 
sentiert jeweils eine Produkteigenschaft. Ein n-dimensionaler Produktvektorraum 
definiert dabei alle möglichen Produkte, die mit n Komponenten umsetzbar sind. 
Jede Komponente kann k verschiedene Werte annehmen. Mauer et al. (2017) defi- 
nieren für die Komponenten k = 2 Ausprägungen mit den Werten 0 und 1. Eine 
beispielhafte Anwendung dieses Modellierungsansatzes ist für den binären Fall von 
k = 2 für sogenannte Gelegenheitsvektoren zur Umgebungsmodellierung auch in 
Davis et al. (2009) zu finden. Es ergeben sich maximal k” mögliche Konfigurationen. 

Im Simulationsmodell von Mauer et al. (2017) erhalten die Komponenten des 
Artefakts, die zu Beginn der Simulation noch nicht konkret definiert sind, nun 
den Wert 9 und sind somit flexibel. Die Anzahl m der flexiblen Komponenten zu 
Beginn der Simulation variiert je nach verwendeter Suchstrategie (steuerungs- vs. 
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vorhersagebasiert), wobei m < n. Die Anwendung flexibler Vektorkomponen- 
ten wird ebenfalls in Davis et al. (2009) erläutert, wobei diese als improvisierte 
Aktionen operationalisiert und mit einem ? notiert werden. Improvisierte Aktio- 
nen stellen die Fähigkeit einer Organisation dar, eine unternehmerische Gelegen- 
heit zu einem bestimmten Zeitpunkt zu beeinflussen, während n — m Komponenten 
eines Gelegenheitsvektors die vor Ergreifung der Gelegenheit fixen Entscheidungen 
repräsentieren. 

Im Modell von Mauer et al. (2017) werden zwei Arten von Agenten beschrieben: 
Anbieter-Agenten und Konsumenten-Agenten. Konsumenten-Agenten sind in der 
Form passiv, dass sie jeweils einen Artefakt-Vektor versinnbildlichen, dessen Kom- 
ponenten nicht durch Interaktion mit anderen Agenten geändert werden können und 
der keine flexiblen Komponenten enthält. 

Die Verteilung der Nachfragevektoren der Kosumenten im Produktvektorraum 
stellt die Payoff-Landschaft im Sinne der Nachfrage dar. Mauer et al. (2017, S. 
244) beschreiben diese als ,,[...] demand vectors [which] reflect the current universe 
of consumer preferences at each point in time, thereby forming the payoff lands- 
cape.“. Die Payoff-Landschaft wird in diesem Zusammenhang mit einer taste distri- 
bution verglichen, wie sie Carpenter und Nakamoto (1989) erläutern. In Abbildung 
3.1 ist eine beispielhafte Payoff-Landschaft, die durch zwei Artefakt-Komponenten 
geformt wird, dargestellt. 

Die Landschaft stellt sich in der Ebene über die beiden Artefakt-Komponenten 
als Verteilung der möglichen Komponenten-Kombinationen der Konsumenten dar. 
Während Carpenter und Nakamoto (1989) die dritte Dimension der Landschaft 
als Marktwert der jeweiligen Komponenten-Kombinationen verstehen, definieren 
Mauer et al. (2017) diesen Funktionswert als aggregierte Konsumenten-Präferenzen 
und drücken damit jeweils die Anzahl der einzelnen tatsächlich nachgefragten Kom- 
ponenten aus. Das Konzept der Landschaft lässt sich auf das bereits erwähnte Auto- 
mobilbeispiel übertragen. Hierbei stellen die einzelnen Vektorkomponenten der vek- 
torisierten mentalen Repräsentation die jeweiligen Ausprägungen der Produkteigen- 
schaften dar. Beispielsweise bildet die erste Vektorkomponente des Konfigurations- 
Vektors (1, 0, 1) die Produktausprägung Chassis-Größe ab. In diesem Fall steht die 
1 für ein großes Chassis (während eine O für ein kleines Chassis stehen würde). 
Da in diesem Beispiel die Vektorkomponenten jeweils zwei verschiedene Werte 
annehmen können (0 oder 1) und insgesamt drei verschiedene Produkteigenschaf- 
ten zur Verfügung stehen, existieren 8 verschiedene Produktkonfigurationen für das 
Automobil. Diesen Konfigurationen, die Punkte im Raum darstellen, werden Funk- 
tionswerte, in Form der Payoffs, zugeordnet. Die Funktionswerte wiederum drücken 
aus, wie stark die Nachfrage einer bestimmten Produktkonfiguration im Vergleich 
zu anderen Produktkonfigurationen ist. 


46 Evaluierung bestehender Modellierungs- und Simulationsansätze im Kontext ... 


Payoff 


Abb. 3.1 Beispielhafte Payoff-Landschaft für einen Artefakt-Vektor der Konsumenten mit 


n = 2 Komponenten und k € [0, 10] Ausprägungen (mod. nach Carpenter und Nakamoto 
(1989)) 


Carpenter und Nakamoto (1989) beziehen das Konzept der taste distribution 
auf einen einzelnen Konsumenten hinsichtlich eines möglichen Produktes. Mauer 
et al. (2017) hingegen verwenden die taste distribution als Payoff-Landschaft aller 
Konsumenten und ihrer tatsächlich nachgefragten Produkte (Artefakte). Abbildung 
3.1 zeigt, dass die Werte der Komponenten aus einem kontinuierlichen Bereich 
stammen. Mauer et al. (2017) verwenden in ihrem Modell diskrete Werte für die 
möglichen Komponenten. Abbildung 3.1, wie sie in der Form auch von Mauer et al. 
(2017) zur Veranschaulichung genutzt wird, ist für die Darstellung ihres Modellie- 
rungsansatzes, mit diskreten Werten für die Komponenten, daher eher ungeeignet. 

Für die Modellierung der Angebotsseite verwenden Mauer et al. (2017), wie 
bereits anfangs erwähnt, Anbieter-Agenten, die Artefakte mittels einer Steuerungs- 
bzw. Vorhersage-Strategie entwickeln. Anbieter-Agenten, die einer vorhersageba- 
sierten Strategie folgen, beobachten zu Beginn der Simulation stichprobenartig 
Nachfragevektoren der Konsumenten-Agenten und sammeln so Informationen zu 
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Praferenzen der Nachfrager. Ein Optimierungsalgorithmus, der lediglich schema- 
tisch von Mauer et al. (2017) beschrieben wird, bestimmt dann die besten Werte 
fiir die flexiblen Komponenten des Artefakts mittels Maximierung des Market- 
Fits in Bezug auf die stichprobenartig erfasste Nachfrage. Nach Austausch der 
flexiblen Komponenten des Artefakt-Vektors mit den ermittelten bestmöglichen 
Werten, endet der Simulationsprozess mit der Berechnung des Market-Fits. 

Der steuerungsbasierte Anbieter-Agent vergleicht seinen ihm zugehörigen 
Artefakt-Vektor dagegen komponentenweise mit Artefakt-Vektoren anderer pas- 
siver steuerungsbasierter Anbieter-Agenten, die ihm zufällig als Kontaktnetzwerk 
zugeordnet wurden und potentielle Stakeholder repräsentieren. Besitzt der Vek- 
tor des passiven steuerungsbasierten Anbieter-Agenten einen festen Wert in einer 
Komponente, ersetzt der aktive steuerungsbasierte Anbieter-Agent den Wert an die- 
ser Stelle in seinem Artefakt-Vektor, sofern dieser noch flexibel ist. Ist der Wert 
einer Komponente an der gleichen Stelle des Vektors der beiden Agenten flexibel, 
muss der aktive steuerungsbasierte Anbieter-Agent mit mindestens einem weite- 
ren passiven steuerungsbasierten Agenten den Artefakt-Vektor abgleichen, um die 
flexible Komponente mit einem fixen Wert zu versehen. Wie die Reihenfolge fest- 
gelegt wird, in der der sequentielle Abgleich mit den passiven steuerungsbasierten 
Agenten geschieht, ist nicht näher spezifiziert. Auch wenn Mauer et al. (2017) es 
nicht explizit erläutern, folgt dieses Vorgehen den Ausführungen zur Erreichung von 
Vereinbarungen mittels effektuativem Vorgehen von Sarasvathy (2009, S. 15). Der 
Simulationsprozess ist beendet, wenn der Artefakt-Vektor des steuerungsbasierten 
Agenten keine flexiblen Komponenten mehr enthält. Danach wird der Market-Fit 
evaluiert. 

Der Market-Fit stellt im Modell von Mauer et al. (2017) das Leistungsmaß dar 
und dient der Bestimmung der Leistungsfähigkeit der steuerungs- bzw. vorher- 
sagebasierten Suchalgorithmen in verschiedenen Kontexten. Die Gesamtheit der 
Nachfragevektoren der Konsumenten bildet die Marktnachfrage ab. Nachfragevek- 
toren sind im gleichen Produktvektorraum angesiedelt wie die Artefakt-Vektoren 
der Anbieter. Nachfragevektoren besitzen lediglich Komponenten mit fixen Werten 
(O und 1), die sich jedoch über die Zeit ändern können (0 wird zu 1 bzw. 1 wird zu 0). 
Zur Bestimmung der Leistungsfähigkeit im Sinne des Market-Fits wird die Kongru- 
enz des Artefakt-Vektors des Anbieter-Agenten mit der Marktnachfrage gemessen. 
Mauer et al. (2017, S. 244) definieren Market-Fit konkret ,,[...] as the percentage 
of consumer agents whose demand vector components show the same values as the 
product vector components, averaged over all vector dimensions.“. Da Mauer et al. 
(2017) keine formale Berechnungsvorschrift des Market-Fits bereitstellen, soll im 
Folgenden anhand eines Beispiels die Berechnung des Market-Fits nachvollzogen 
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werden. Im Anschluss wird darauf aufbauend der Market-Fit mathematisch model- 
liert. 


Beispiel 3.1 (Market-Fit). 

Es gebe n = 2 Komponenten und k = 2 Ausprägungen. 

Es wird angenommen, dass neun Nachfragevektoren der Konsumenten-Agenten 
existieren. Auf Seiten der Anbieter-Agenten gibt es insgesamt 12 Angebotsvek- 
toren!. Diese werden zu Vergleichszwecken in 4 Gruppen 4 3 Angebotsvektoren 
unterteilt. Die Erstellung der Vektoren erfolgt willkürlich. 

Konkret wird die Menge Y der Nachfragevektoren mit folgender Zusammenstellung 
der Elemente untersucht: 


Y = {(0, 0); (0, 0); (0, 1); (0, 1); (1,0); (1,0); 1,1); 1,1); A, D} 


Um die Payoff-Landschaft für Y zu erstellen, muss zunächst ermittelt werden, wel- 
chen Anteil jede Vektorkomponentenkombination aus der k”-elementigen Menge 
aller möglichen Vektorkonfigurationen hat. Es ergeben sich die möglichen Kombina- 
tionen (0, 0); (0, 1); (1,0); (1, 1). Für die Berechnung des Payoffs einer möglichen 
Kombination wird zunächst die Ausprägung jeder Komponente mit den Ausprä- 
gungen der korrespondierenden Komponenten der Nachfragevektoren verglichen. 
Anschließend wird für jede Komponente die Anzahl der Ausprägungen der Nachfra- 
gevektoren bestimmt, die den gleichen Wert wie die Ausprägung der Komponente 
der möglichen Kombination aufweist. Die für die jeweiligen Komponenten entstan- 
denen Anzahlen werden aufaddiert, durch die Gesamtzahl der Nachfragevektoren 
dividiert und über die Anzahl der Komponenten gemittelt. Es ergeben sich für die 
einzelnen Kombinationen die gemittelten Anteile: 


4,4 4 
Mi = 
445 1 
en 
24% 1 
ern 
SES 5 
(= = 5: 


' Da im Beispiel lediglich die Berechnung des Market-Fits betrachtet wird, ist es irrelevant, 
ob die Artefaktvektoren von steuerungs- oder vorhersagebasierten Agenten erstellt wurden. 
Sie werden deshalb allgemein als Angebotsvektoren der Anbieter-Agenten bezeichnet. 
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Auf Angebotsseite werden zu Vergleichszwecken vier unterschiedliche Fälle kon- 
struiert, die jeweils drei Angebotsvektoren der Anbieter-Agenten enthalten. Diese 
setzen sich wie folgt zusammen: 


Fall 1 Fall 2 Fall 3 Fall 4 
(0,0) (1,1) (0,0) (0,0) 
(1,1) (1,1) (0,0) (1,0) 
(1,1) (1,1) (0,0) (1,0) 


Aufbauend auf den Ausführungen von Mauer et al. (2017) wird der Market-Fit 
als Payoff derjenigen Vektorkombination der Nachfragevektoren definiert, die mit 
dem Angebotsvektor übereinstimmt. Der mittlere Market-Fit beschreibt den durch- 
schnittlichen Market-Fit der Angebots-Agenten pro Fall. Im Beispiel errechnen sich 
für 


4 5 5 
$+3+3 14 
Fall 1: 2 3 =, 
3 5 5 
Fall 2; 27979 _ > 
ig 9 
4,4,4 
S++% 4 
Fall 3: “2 — = 5 
4 1 1 
gst5+5 1 
Fal 4, 97242 _ 1 
3 27 


die verschiedenen mittleren Market-Fits. 

Es zeigt sich, dass in Fall 2 ein Market-Fit von 3 erreicht wird. Dabei hatten alle 
drei Angebots-Agenten einen Angebotsvektor von (1, 1). Auf Seiten der Nachfrage- 
Agenten war diese Vektorkomponentenkombination die am meisten nachgefragte 
Kombination. Folglich ergibt sich fiir die Angebotsvektoren aus Fall 2 der mittlere 
Market-Fit von d In Fall 3 hingegen ergibt sich ein mittlerer Market-Fit von 4, da 
alle drei Angebots-Vektoren einen Wert von (0, 0) aufweisen und dementsprechend 
der Vektorkomponentenkombination der Nachfrage-Agenten mit dem geringsten 
Payoff entsprechen. 


Definition 3.2 (Market-Fit) 
Sei f ein beliebiger Vektor (fı,..., fy) mit fi € {1,..., k} undi =1,...,n und 


(N... Die Menge aller Nachfragevektoren. 
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Somit ergibt zur Berechnung des Payoffs Dor 


Lolly 
pof = 7122 Mn GI 


yeY j=l 


Der Market-Fit mt, eines Angebotsvektors a € A aus der Menge A der ermittelten 
Angebotsvektoren ist definiert mit 


mfa := Poflf=a - (3.2) 


Daraus folgt die Rechenvorschrift des mittleren Market-Fits mf mit 


mf = — Y mfa. (3.3) 


acA 


Zur Evaluierung der vorhersage- und steuerungsbasierten Suchalgorithmen in unter- 
schiedlichen Kontexten operationalisieren Mauer et al. (2017) den unternehmeri- 
schen Problemraum, der unter anderem von Dew und Sarasvathy (2007) beschrieben 
wurde. Er setzt sich aus den Umgebungsvariablen Ungewissheit, Isotropie und Ziel- 
Ambiguität zusammen. Diese Elemente des Problemraums können im Grad ihres 
Auftretens im Modell von Mauer et al. (2017) gesteuert werden. 

Ungewissheit, wie sie in Abschnitt 2.2 behandelt wurde, kann hinsichtlich der 
Marktnachfrage im Simulationsmodell von a-priori bzw. empirisch bis hin zu einem 
ähnlichen Konzept von Ungewissheit, wie es Knight (1921) formulierte, variiert wer- 
den. Dabei folgen Mauer et al. (2017) der Arbeit von Davis et al. (2009) und Dess und 
Beard (1984), indem sie das Konzept der Umgebungsdynamik für die Modellierung 
von Ungewissheit nutzen. Die Verteilungen für die Nachfrage von Produkteigen- 
schaften können demnach stabil sein und somit die Abwesenheit von Ungewissheit 
repräsentieren oder sich im Zeitverlauf ändern und somit den Grad des Vorhan- 
denseins von Ungewissheit widerspiegeln. Die Operationalisierung der Isotropie 
erfolgt dadurch, dass mehr oder weniger Produkteigenschaften in der Marktnach- 
frage gleichverteilt werden. Im Falle des Automobil-Beispiels könnte hinsichtlich 
der Vektorkomponente Chassis-Größe, eine Verteilung in der Marktnachfrage von 
0/100 bedeuten, dass alle Nachfrage-Agenten die Produktausprägung gropes Chas- 
sis nachfragen und kein Nachfrage-Agent die Produktausprägung kleines Chassis. 

Ziel-Ambiguität wird durch die Variierung der Anzahl der undefinierten Kom- 
ponenten des Artefakt-Vektors operationalisiert. 
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Um die steuerungs- und vorhersagebasierten Suchprozesse auf ihre Leistungsfä- 
higkeit hin zu vergleichen, fiihren Mauer et al. (2017) drei Simulationsexperimente 
durch. Dabei gibt jedes Experiment Auskunft tiber die Auswirkung der jeweiligen 
Variable aus dem Problemraum (Ungewissheit, Isotropie, Ziel-Ambiguität) auf den 
durchschnittlichen Market-Fit hinsichtlich der zu vergleichenden Strategien. 

Mittels Monte-Carlo-Simulationstechnik wurde jede Parameterkonfiguration mit 
jeweils unterschiedlich initialisierten Werten des Artefakt-Vektors mehrmals durch- 
laufen, um statistische Fehler zu vermeiden. Pro Experiment wurden zwischen 50 
und 170 Durchläufe ausgeführt, die insgesamt 63.000 bis 214.000 Datenpunkte 
zur Analyse erzeugten. Ein Datenpunkt ist diesbezüglich eine Datenauslesung 
aller Parameter eines Agenten. In einem einzelnen Simulationsdurchlauf ist das 
mittlere Market-Fit-Ergebnis für eine Parameter-Konfiguration die Aggregation 
aller Market-Fit-Ergebnisse der einzelnen steuerungs- bzw. vorhersagebasierten 
Agenten. Folgende umgebungsrelevanten Kennzahlen des Simulationsmodells von 
Mauer et al. (2017) sind darüber hinaus bekannt: 


e Gesamtzahl der Agenten: 100, davon: 
— 20 vorhersagebasierte Agenten 
— 20 steuerungsbasierte Agenten 
— 60 Konsumenten-Agenten 
e Anzahl der Vektorkomponenten n: 5 
Anzahl der flexiblen Artefakt-Vektorkomponenten m: 0, ...,4 
Anzahl der möglichen Ausprägungen pro Artefakt-Vektorkomponentek:2,...,6 


Artefakt-Vektoren werden entsprechend einer zuvor definierten Verteilung in der 
Payoff-Landschaft erstellt. Die Verteilung ist definiert durch die Anzahl der mögli- 
chen Werte (k), die jede Vektor-Komponente annehmen kann, und durch die Vertei- 
lung dieser Werte. Beispielsweise wäre es möglich, dass beik = 280 % der Agenten 
an der i—ten Stelle des Vektors den Wert 0 und 20 % den Wert 1 haben. Artefakt- 
Vektoren werden für k = 2 an der i—ten Stelle identisch verteilt initialisiert. Um eine 
Verteilung für k > 2 zu modellieren, betrachten Mauer et al. (2017) die Anzahl einer 
ausgewählten Ausprägung über alle Artefaktvektoren als veränderbaren Parameter 
zur Steuerung des Anteils an der Gesamtverteilung. Nach Festlegung des Anteils die- 
ser Ausprägung an der Verteilung wird der verbleibende Anteil der Marktnachfrage 
auf die restlichen k— 1 Ausprägungen gleichverteilt. Die flexiblen Komponenten der 
Artefakt-Vektoren werden im Experiment mit Hilfe des steuerungsbasierten bzw. 
vorhersagebasierten Suchalgorithmus in fixe Werte umgewandelt. 

Die Ergebnisse der Simulation zeigen die Auswirkungen von Isotropie, Ziel- 
Ambiguität und Ungewissheit auf die Marktnachfrage. Das Ausmaß der Isotropie 
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wird mittels k mit k > 1 sowie der Nachfragekonzentration c gesteuert. In diesem 
Zusammenhang beschreibt Isotropie den Umstand, dass zum Zeitpunkt einer Ent- 
scheidungssituation nicht vollständig klar ist, welche Informationen der Umgebung 
zum Treffen einer guten Entscheidung relevant sind. Mauer et al. (2017) operationa- 
lisieren Isotropie durch Vielfalt in der Marktnachfrage. Die Nachfragekonzentration 
c gibt an, ob eine bestimmte Komponente im Vergleich zu anderen Komponenten 
durchschnittlich mehr, weniger oder gleich nachgefragt ist. Je größer der Anteil 
einer Komponente im Vergleich zum Durchschnitt ist, desto geringer variiert die 
Marktnachfrage v. Die Variation in der Marktnachfrage wird berechnet durch: 


k 2 1 
v = — mit v € [k; k] undc € | —; 1 
c k 


Die Dominanz in der Marktnachfrage d wird folgendermaßen berechnet: 
d=c-kmitde[l;k] 


Der Ablauf der Simulation von Mauer et al. (2017) wird exemplarisch in Form 
von Pseudo-Code in dargestellt. In der Simulation von Mauer et al. (2017) wird 
die Modellierung von Ungewissheit durch Veränderung der initialen Verteilung 
der Vektor-Komponenten, nachdem beide Strategien das Artefakt finalisiert haben, 
erreicht und wird als Market-Shift bezeichnet. Beispielsweise könnte in einem 
Markt mit 100 Nachfragern initial eine 80/20 Verteilung zwischen zwei Ausprä- 
gungen (k = 2) einer Artefaktkomponente vorherrschen. Diese Verteilung könnte 
sich im Verlauf zu einer 60/40 oder 30/70 Verteilung ändern. Steuerungsbasierte 
Agenten erzielen einen besseren Market-Fit im Vergleich zu vorhersagebasierten 
Agenten, wenn sich der Market-Shift vergrößert. Dieser Effekt tritt jedoch erst ab 
einem bestimmten Market-Shift-Wert auf. Je früher die Änderung der Verteilung 
der Marktnachfrage im Simulationsablauf durchgeführt wird, umso höher ist der 
erreichte Market-Fit des steuerungsbasierten Agenten. Mauer et al. (2017) wider- 
sprechen sich jedoch, was den Zeitpunkt des Market-Shifts im Simulationsablauf 
angeht. Einerseits schreiben sie: „In our experiments, the market shift occurred after 
both strategies had terminated finalizing the product“. Auf der anderen Seite erläu- 
tern sie, dass „the timing of a market shift is important, which is why we investigate 
by manipulating it in the simulation“. 

Bei der Untersuchung der Auswirkungen der Ziel-Ambiguität auf die Marktnach- 
frage und dementsprechend der Bestimmung des Market-Fits, haben steuerungsba- 
sierte Agenten bei einer moderaten Ziel-Ambiguitäts-Konfiguration (1 < m < 2) 
eine stabile Leistungsfähigkeit, die (linear) mit Anstieg des Market-Shifts abfällt. 
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Algorithmus 1 Control-based and Prediction-based model 


procedure SIMULATION(control agents, prediction agents, consumer agents, n, k, 


c) 
2: A <allcontrol agents and prediction agents 
for each agent € A do 
4: for j < 1,n do 
agent; < one of {0, ..., k — 1} with distribution c 
6: end for 
end for 
H for each agent € A do 
flexible components <— m random elements from {1, ..., n} 
10: for j < 1, n do 
if j c flexible components then 
12: agent; <9 
end if 
14: end for 
end for 


16: for each agent € prediction agents do 
consumer-sample <- random sample of consumer agents 


18: for j = 1,n do 
if agent; = 9 then 
20: agent; <- mode of j-th component of consumer-sample 
end if 
22: end for 
end for 


24: for each agent € control agents do 
agent-sample <- random sample of remaining control agents 


26: for agent_s € agent-sample do 
for j = 1,ndo 
28: if agent; =9 E agent_s; #9 then 
agent; = agent_s; 
30: end if 
end for 
32: end for 
end for 
34: Y < consumer agents 
n 
market fit = AET PR > Just 
acA yeY j=1 


36: end procedure 


54 Evaluierung bestehender Modellierungs- und Simulationsansatze im Kontext ... 


Vorhersagebasierte Agenten zeigen bei fallenden Werten für m eine stärkere Leis- 
tungsfähigkeit bei geringem Market-Shift und eine schwächere Leistung bei großem 
Market-Shift. Mauer et al. (2017) lassen offen, weshalb eine Veränderung des 
Market-Shifts im dritten Experiment durchgeführt wurde, obwohl es an anderer 
Stelle der Arbeit heißt, dass ,,[e]ach experiment examines the effect of one variable 
on the average market fit of the two strategies being compared.“. 

Eine kritische Evaluation der hier zusammengefassten Ergebnisse erfolgt in 
Abschnitt 3.2.1. 


3.1.2 Simulationsmodell nach Welter und Kim (2018) 


Welter und Kim (2018) untersuchen in ihrer Arbeit Effectuation mit Hilfe eines NK- 
Modellansatzes. Sie adressieren damit die Fragestellung, in welchem Kontext Effec- 
tuation anwendbar und wirksam ist. Dabei schließen die Autoren an die Erkennt- 
nisse von Welter et al. (2016) an, die die Potentiale in der Theorienbildung von 
Effectuation thematisieren. Insbesondere zeigen Welter und Kim (2018) auf, dass 
die bisherige Effectuation-Forschung, wie beispielsweise Dew, Read et al. (2009), 
den Unterschied zwischen Risiko- und ungewissen Kontexten nicht ausreichend 
klar herausstellt. Darauf aufbauend versuchen Welter und Kim (2018) die Frage zu 
beantworten, wie wirksam Effectuation im Vergleich zu kausaler Logik in Risiko- 
und ungewissen Kontexten ist. 

Zur Beantwortung der Frage bemühen Welter und Kim (2018) ein agentenba- 
siertes Simulationsmodell, das die Leistungsfähigkeit der Theorien Effectuation 
und Causation mittels einer Fitness-Landschaft untersucht. Zur Modellierung von 
Risiko- und ungewissen Entscheidungs-Kontexten manipulieren die Autoren die 
Fitness-Landschaft. Damit erreichen Welter und Kim (2018) eine Beeinflussung 
des Entscheidungsverhaltens von Entrepreneuren hinsichtlich der Möglichkeit die 
Zukunft vorherzusagen. Zusammenfassend bietet der Ansatz die Möglichkeit: 


den Grad des Einflusses von Risiko und Ungewissheit zu verändern, 
die Leistungsfähigkeit von Effectuation und Causation in den genannten Kon- 
texten zu bewerten und 

e den Planungsgrad des agentenbasierten Entrepreneurs zu steuern. 


Welter und Kim (2018) definieren die Konzepte Risiko und Ungewissheit in Vorbe- 
reitung auf die Untersuchung. Ergänzend zu den Ausführungen aus Abschnitt 2.2 
werden Risiko und Ungewissheit als zwei entgegengesetzte Enden eines 
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Kontinuums (Edelman & Yli-Renko, 2010) bzw. Grade von Risiko und Ungewiss- 
heit beschrieben (Brinckmann et al., 2010). 

Als Simulationsansatz für die Untersuchung der Leistungsfähigkeit von Effectua- 
tion und kausaler Logik in Risiko- und ungewissen Kontexten wird ein NK-Modell 
verwendet, das auf den Ausfiihrungen von Levinthal (1997) beruht und bereits in der 
Management-Forschung vielfach angewendet wird, wie beispielsweise von Ganco 
und Agarwal (2009), Rivkin (2000) und Lenox et al. (2006). Die Verwendung die- 
ses Ansatzes trägt nach Auffassung von Welter und Kim (2018) dazu bei, folgende 
Herausforderung der bisherigen Effectuation-Forschung zu überwinden: 


e Empirische Messbarkeit von Risiko und Ungewissheit 
e Mangel an Bereitstellung leistungsbezogener Daten 
e Replizierbarkeit von Entscheidungsverhalten. 


Die Fitness-Landschaft von Welter und Kim (2018) ist durch verschiedene lokale 
Maxima gekennzeichnet, die sich um ein globales Maximum verteilen. Eine Posi- 
tionierung des Agenten in der Landschaft drückt demzufolge den entsprechenden 
Leistungswert aus. Lokale Maxima repräsentieren eine hohe Leistung relativ zur 
Umgebung. 

Die Messung der Leistungsfähigkeit bezieht sich auf Unternehmen, die den 
Untersuchungsgegenstand darstellen und als Agenten im Simulationsmodell han- 
deln. Die Unternehmen werden nach Levinthal (1997) als eine Menge von Ent- 
scheidungen modelliert, die die Mächtigkeit N hat. Jede Entscheidung ist von 
binärem Charakter, was sich in Rivkin (2000) als sinnvoll erwiesen hat. Folg- 
lich wird ein Unternehmen durch eine N-dimensionale Binärkette repräsentiert als 
S = {s1,52,-+-Sn—1, SN}, Sj € {0, 1}. Es ergeben sich für ein Unternehmen 2N 
mögliche Entscheidungskonfigurationen. 

Das von Welter und Kim (2018) vorgestellte Simulationsmodell wendet den 
NK-Modellierungsansatz von Kauffman (1993) und Levinthal (1997) zur Darstel- 
lung der Fitness-Landschaft an. Diese bildet jede mögliche Entscheidungskette 5 
auf einem Leistungswert W (S) ab (Siggelkow & Rivkin, 2006). Zur Berechnung 
des Leistungswertes W (S) einer Entscheidungskette $ eines Unternehmens wird 
der Mittelwert der jeweiligen Leistungen w(s;) der einzelnen Entscheidungen sj 
einer Entscheidungskette A gebildet. Es ergibt sich: 


1 
W(S) = yo ws) (3.4) 
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In diesem Zusammenhang kann w(s;) mit j € 1,2,..., N als Beitrag verstanden 
werden, den s; an der Leistung der Entscheidungskonfiguration S hat. Dieser Bei- 
trag von s; Kann unter Umständen auch von anderen Entscheidungen der Entschei- 
dungskonfiguration S abhängen. Dies wird durch w(s;, s-;) symbolisiert, wobei 
s_ als Bezeichner für alle Entscheidungen aus S steht, die ebenfalls Einfluss auf 
den Beitrag von s; haben. 

Im NK-Modell parametrisiert K den Grad der Komplexität einer Entscheidung 
sj im Rahmen der Entscheidungskonfiguration S des Unternehmens. K drückt die 
Anzahl der abhängigen Entscheidungen s_j; aus. Steigt demnach K, werden Ent- 
scheidungen komplexer. Die Annahme, dass mit steigender Komplexität auch die 
Abhängigkeit zwischen Einzelentscheidungen steigt, findet sich beispielsweise auch 
in Simon (1962) wieder. Ist X = 0, beeinflussen sich die einzelnen Entscheidungen 
nicht gegenseitig. Dies lässt sich durch w(s;, s_;) = w(s;) ausdrücken. 

Um eine Fitness-Landschaft zu konstruieren, wird jeder Entscheidung s; und 
ihren abhängigen Entscheidungen s_j; initial ein zufälliger Wert w, der aus der 
Gleichverteilung U[0, 1] kommt, zugeordnet. Es ergibt sich: 


w(sj,s_j) ~ U, 1] für j=1,...,N. (3.5) 


Gleichung (3.4) kann entsprechend zu 
1 AN 
W(S) = 7 2 ws A) (3.6) 
j=l 


erweitert werden. 

Die Fitness-Landschaft bildet den Problemraum, in dem Unternehmen bestrebt 
sind, ihre Entscheidungen zu ändern, um so ihre Leistungsfähigkeit zu erhöhen und 
demnach eine höhere Fitness zu erreichen. 

Um im Modell Ungewissheit zu simulieren, initiieren Welter und Kim (2018) 
im Simulationsablauf Schocks in die Fitness-Landschaft. Dabei wird nach jeder 
Periode Ts die Fitness-Landschaft in ihrer Beschaffenheit verändert. Dazu wird 
w(s;, s—j;) mit (1—r)w(s;, s_j)+tU ersetzt, wobei U einen zufälligen Wert aus der 
Gleichverteilung U[0, 1] darstellt und t im Intervall von [0, 1] liegt. Entsprechend 
wird die Abbildung von Entscheidungen zu Leistungswerten geändert. 

Der Grad der Ungewissheit wird mittels des Parameters r realisiert. Beträgt 
t = 0, befindet sich das Unternehmen in Form eines Agenten in einem Risiko- 
Kontext. Die Fitness-Landschaft ändert sich während der Simulation nicht. Beträgt 
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hingegen t = 1, ist zwischen zwei aufeinanderfolgenden Fitness-Landschaften kein 
Zusammenhang mehr gegeben und ein ungewisser Kontext tritt ein. 

Der Entscheidungsfindungsprozess des Agenten wird durch eine adaptive Suche 
nach besseren Leistungswerten von begrenzt rationalen Individuen (Simon, 1959) 
konzeptualisiert (Cyert & March, 1963; Levinthal, 1997). Der Suchprozess im 
Sinne eines Optimierungsalgorithmus wird mit Hilfe des Hill-Climb-Verfahrens 
umgesetzt (Csaszar & Siggelkow, 2010; Rivkin, 2000). Bei dieser Heuristik suchen 
Agenten nach einer Entscheidungskonfiguration, die einen besseren Leistungswert 
als die ursprüngliche Konfiguration aufweist, indem jeweils nur eine Entscheidung 
verändert wird und die entsprechenden Leistungswerte verglichen werden. Sofern 
die geänderte Entscheidungskonfiguration zu einem besseren Leistungswert führt, 
passt der Agent die untersuchte Entscheidung an. Andernfalls behält der Agent die 
ursprüngliche Entscheidungskonfiguration bei. Die Anwendung des Hill-Climb- 
Verfahrens begründen Welter und Kim (2018) zudem mit dem Konzept der begrenz- 
ten Rationalität, wie es bereits Simon (1959) eingeführt hat. Demnach können Agen- 
ten nicht über die gesamte Fitness-Landschaft nach dem Optimum suchen, sondern 
haben lediglich die Möglichkeit, pro Zeitpunkt jeweils eine Entscheidung anzu- 
passen und anschließend die Leistungsfähigkeit der Entscheidungskonfiguration zu 
überprüfen. 

Zur Modellierung des Planungsgrades verwenden Welter und Kim (2018) einen 
Parameter o. Dieser beschreibt die Anzahl an Entscheidungen einer Entscheidungs- 
konfiguration, die während des Suchprozesses fix sind. Dabei kann o die Werte 
0,..., N annehmen. Die o Entscheidungen werden zufällig aus N Entscheidun- 
gen ausgewählt. Effektuativ handelnde Agenten werden mit 9 = 2, Agenten, die 
kausaler Logik folgen, werden mit o = 8 operationalisiert. Die Tatsache, dass 
Effectuation-Agenten nicht 0 = 0 fixe Entscheidungen haben, liegt darin begrün- 
det, dass effektuative Entrepreneure auf ihre aktuell zur Verfügung stehenden Mittel 
begrenzt sind (Sarasvathy, 2009, S. 75) und demzufolge ein Teil der Entscheidungen 
(Q = 2) bereits fix ist. 

Um den Agenten mit der Möglichkeit auszustatten Vorhersagen zu treffen, ver- 
wenden Welter und Kim (2018) den Parameter X. Dieser gibt die Wahrscheinlichkeit 
an, mit der jede der o Entscheidungen der Entscheidungskonfiguration des Agenten 
mit den Entscheidungen der Entscheidungskonfiguration des globalen Maximums 
übereinstimmt. Je höher demnach å ist, desto höher ist die Chance des Agenten das 
globale Maximum zu bestimmen. Zusammenfassend werden folgende Parameter 
zur Konstruktion des Simulationsaufbaus und Manipulation des Simulationsablaufs 
verwendet: 
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e Smits; € {0, 1}: Entscheidungskonfiguration als Repräsentation eines Unter- 
nehmens 

e N: Anzahl der Entscheidungen s; innerhalb einer Entscheidungskonfiguration 
N 

e K: Komplexitätsgrad im Sinne der Anzahl von Entscheidungen s_ ;, die mit sj 
in Verbindung stehen 

e WS) Leistungsmaß einer Entscheidungskonfiguration, welches zu jedem Simu- 
lationszeitpunkt tf gemessen wird; nach Ablauf einer Simulation werden alle 
W (S) aufsummiert und über die Zeit t = T, mit T als Anzahl der Simulations- 
zeitschritte, gemittelt; anschließend werden die einzelnen gemittelten Leistungs- 
werte nach Durchführung mehrerer Simulationsdurchläufe mit unterschiedlichen 
Fitness-Landschaften nochmals gemittelt. 

e t: Parameter zur Steuerung des Risiko- bzw. Ungewissheits-Kontextes durch 
Veränderung der Fitness-Landschaft 

e Oo Anzahl der fixen Entscheidungen innerhalb einer Entscheidungskonfiguration 
N 

e i: Wahrscheinlichkeit, mit der jede der o fixen Entscheidungen des Agenten 
kongruent mit den Entscheidungen an der selben Stelle der Entscheidungskon- 
figuration des globalen Maximums ist 


Zur Durchführung der Simulation des agentenbasierten Modells wird zunächst aus 
den Parametern N, K und t eine Fitness-Landschaft erzeugt. Weiterhin wird die 
Lage des Unternehmens in der Fitness-Landschaft, in Form einer Entscheidungs- 
konfiguration, zur Zeit ¢ = 1 mittels einer Bernoulli-Verteilung mit der Erfolgswahr- 
scheinlichkeit p = 0, 5 für die einzelnen Entscheidungen s; mit j € {1,2,..., N} 
bestimmt. Danach folgen die Unternehmens-Agenten dem adaptiven Suchalgorith- 
mus bis zur Zeit t = T, wobei T die Anzahl der gesamten Simulationszeitschritte 
darstellt. Die Anzahl der Simulationsschritte 7 wird in Perioden eingeteilt, die 
die Länge Ts haben. Im Anschluss wird auf Grundlage des Parameters t nach Ts 
Zeitschritten ein Schock in die Fitness-Landschaft initiiert, der den Risiko- bzw. 
ungewissen Kontext simuliert. Nach Auftreten des Schocks ändern die Agenten 
o ihrer Entscheidungen, basierend auf dem Vorhersage-Parameter A, hinsichtlich 
des globalen Maximums. Die Schritte der adaptiven Suche und der Schockinitiie- 
rung werden wiederholt bis £ = T und die Simulation somit beendet ist. In Form 
von Pseudo-Code lässt sich der Simulationsablauf von Welter und Kim (2018), 
wie in der Übersicht Algorithmus 2 beschrieben, algorithmisch interpretieren. Die 
Prozedur stellt hierbei eine Verallgemeinerung des von Welter und Kim (2018) 
entwickelten Simulationsablaufs dar, sodass die Anzahl der Ausprägungen, die 
eine Entscheidung annehmen kann, beliebig groß sein kann. Um die Simulation 
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durchzufiihren, verwenden Welter und Kim (2018) eine Parameterkonfiguration 
mit N = 10, Ts = 10 und T = 200. Die Parameter K, Tt, o und A werden während 
der insgesamt 25.000 durchgeführten Simulationsdurchläufe geändert. Damit fol- 
gen Welter und Kim (2018) den Monte-Carlo=Simulationstechniken, wie sie unter 
anderem von Law und Kelton (1991), Mauer et al. (2017), Davis et al. (2009) und 
Rivkin (2000) vorgeschlagen werden. 

Die Simulationsergebnisse zeigen, dass Effectuation (bei o = 2) gegenüber 
kausaler Logik (o = 8) in einem großen Spektrum von Risiko- und ungewissen 
Entscheidungskontexten (t) sowie dem Großteil der Bandbreite der Vorhersage- 
Fähigkeit des Agenten (X) überlegen ist. Lediglich in Situationen, in denen t klein 
ist und somit ein Risiko-Kontext vorherrscht bzw. in denen A hoch ist, ist die Leis- 
tungsfähigkeit kausaler Logik im Vergleich zu Effectuation höher. Eine kritische 
Evaluation der hier zusammengefassten Ergebnisse erfolgt in Abschnitt 3.2.2. 


3.1.3 Simulationsmodell nach Eberz (2018) 


Eberz (2018) hat mit FSim eine interaktive Verhaltenssimulation entwickelt, um 
effektuative und kausale Verhaltensweisen von Nutzern in verschiedenen Szenarien 
zu untersuchen. Methodisch orientiert sich Eberz (2018, S. 70) an Design Science, 
wie ihn Hevner et al. (2004) und March und Storey2008 beschreiben. Charakteris- 
tisch für diesen Forschungsansatzes ist, dass im organisationalen Kontext neue und 
innovative Artefakte geschaffen werden, deren Mehrwert im Anschluss evaluiert 
wird (Hevner et al., 2004). Mit dem in Eberz (2018) vorgestellten Simulations- 
modell wird zudem die Frage untersucht, wie kausales und effektuatives Verhalten 
operationalisiert werden kann. Dabei erweitert Eberz (2018) die Operationalisie- 
rungsbestrebungen in der Effectuation-Forschung von Chandler et al. (2011) und 
McKelvie et al. (2011) um Faktoren der Persönlichkeit unerfahrener Entrepreneure. 

Eberz (2018, S. 78-95) stellt an die Entwicklung des Simulationsmodells meh- 
rere funktionale Anforderungen, die aus Fallstudien und Gedankenexperimenten 
aus der Literatur abgeleitet werden. Sie betreffen die Bereiche: 


Mittel- und Zielorientierung 

Akteure 

Aktionen 

Nutzer 

Interaktionen 

Allgemein (z. B. Reproduzierbarkeit, Abbildung des entrepreneurialen Problem- 
raums und Protokollierbarkeit der Interaktionen) 
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Algorithmus 2 NK-Modell 


1: procedure SIMULATIONSABLAUF(N, K, Q, T, Q, A) 


2: S<{0,..., Q-1}¥ 
3: foreach q e Q+! do 
4: for j = 1, N do 
5: wj(g) ~ UIO, 1] 
6: end for 
T: end for 
8 for each s € S do 
N 
9: W(S) + rw (Gj, -3 SG+K) mod N)) 
j=l 
10: end for 
11: s™¢* < arg max W(S) > s’4* represents decision configuration at optimal performance value 
ses 
12: s@sert — random choice in S 
13: J < random sample of o elements of {1,..., N} 
14: for each j € J do 
15: rand < Berti) 
16: if rand = | then 
17: SE < s” 
18: end if 
19: end for 
20: W<o0 
21: fort —1,T do 
22: if mod Ts = 0 then 
23: for each q e OTI do 
24: for j = 1, N do 
25: wj(q) = (1 — t)wj(q) + tULO, 1] 
26: end for 
27: end for 
28: for each s € S dg 
29: WS) — kä wi (js +--+ 594K) moa N)) 
j=l 
30: end for 
31: eh <— arg max W(S) 
ses 
32: for each j € J do 
33: rand < Berti) 
34: if rand = | then 
35: se <_ SH 
36: end if 
37: end for 
38: end if 
39: for each s € neighbours (s“8*"') do 
40: if W(sasent) < W(S) then 
Al: sasent 5 
42: end if 
43: end for 
44: W = W + Wesasent) 
45: endfor 


46: W=7W 
47: end procedure 
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Neben den fallstudienbasiert-funktionalen Anforderungen stellt Eberz (2018, S. 
95-104) an FSim auch konstruktbasiert-funktionale Anforderungen. Diese betref- 
fen Messindikatoren, die Chandler et al. (2011) zur Messung von Effectuation und 
Causation verwenden. Die operationalisierten Indikatoren interpretiert Eberz (2018) 
für die konkrete Umsetzung in FSim. Darüber hinaus werden im Hinblick auf die 
Entwicklung des Simulationsmodells auch mehrere nicht-funktionale Anforderun- 
gen benannt, die sich insbesondere auf die Bedienbarkeit des Simulationsmodells 
beziehen. Die Bestimmung nicht-funktionaler Anforderungen liegt in der Tatsa- 
che begründet, dass FSim effektuatives und kausales Verhalten auf Grundlage der 
Nutzerinteraktion mit dem Artefakt untersucht. 

Im Vorfeld der Implementierung des Simulationsmodells beschreibt Eberz (2018, 
S. 72-78) die Architekturskizze und das Domänenmodell von FSim und bezieht 
sich dabei auf die Erläuterungen zum grundlegenden Aufbau in Eberz et al. (2015). 
Dabei dient die Architekturskizze als Mittel zur Darstellung der Vision von FSim. 
Darüber hinaus gibt sie Aufschluss über die Rolle des Nutzers als Akteur, der mit 
FSim interagiert und die des Beobachters, der auf die historischen Daten, die durch 
die Interaktion entstanden sind, zugreifen kann. Der Akteur steht diesbezüglich in 
Interaktion mit dem Artefakt. Der Beobachter hingegen hat die Möglichkeit auf his- 
torische Daten zuzugreifen, die durch die vom Akteur durchgeführten Interaktionen 
entstanden sind. Das Domänenmodell, das als UML-Klassendiagramm umgesetzt 
ist (Rupp, 2007), dient als Glossar für die Darstellung der Entitäten und Beziehungen 
dieser zueinander, zur Beschreibung der zu untersuchenden Domäne. 

Nach Interaktionen der Akteure mit FSim werden zu Simulationszwecken ver- 
schiedene Ereignisse ausgelöst. Dazu gehören die Produktions- und Vertriebsrouti- 
nen. Zudem wird eine virtuelle Nachfrage des virtuell zu produzierenden Produkts 
berechnet. Die mathematische Modellierung des Produkt-Fits, der als Grundlage für 
die Ermittlung der Nachfragefunktion fungiert sowie die Modellierung der Nach- 
frage selbst, werden im Anhang der Arbeit von Eberz (2018, S. 233-238) vorgestellt. 

Der Produkt-Fit dient in Eberz (2018) der Operationalisierung der Produktgüte. 
Nkwocha et al. (2005) verwenden den Begriff des product fit im Kontext der Mar- 
kenerweiterung und verstehen darin, wie sehr sich ein Kunde mit einem Produkt 
identifizieren kann. In der populärwissenschaftlichen Literatur ist auch der Begriff 
product-market-fit zu finden, der beschreibt, inwieweit die Ausgestaltung eines Pro- 
duktes der Marktnachfrage entspricht (Blank & Dorf, 2020, S. 57). Eberz (2018) 
weicht von den bisherigen Interpretationen ab und definiert, dass der „Produkt-Fit 
zur Operationalisierung der Güte eines Produktes“ (Eberz, 2017, S. 233) dient. Zur 
Berechnung des Produkt-Fit bezieht sich (Eberz, 2018, S. 233) auf die Einsatzmenge 
und den Preis von verschiedenen Produktionsfaktoren, die während der Simulation 
bestimmt werden. Die Beitragsleistung eines Produktionsfaktors zur Gesamtgüte 
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eines Produktes (Produkt-Fit) wird über die Dichtefunktion o einer Normalvertei- 
lung N (u, o?) ausgedrückt. Die optimale Einsatzmenge eines Produktionsfaktors 
als maximaler Beitrag zur Produktgüte wird durch den Erwartungswert u bestimmt, 
Abweichungen davon werden mit dem Streuungsparameter o? beschrieben. Die 
Dichtefunktion g; stellt die Abbildung der Einsatzmenge r; eines Produktionsfak- 
tors i auf ein Gütemaß oe (r;) dar. Dieser Zusammenhang lässt sich durch 
Ire Au 
1 202 
pilri) = e “i (3.7) 
2no? 


ausdrücken. 

Das wirtschaftliche Ziel ist es, die Gütebeiträge der Produktionsfaktoren zu maxi- 
mieren, da diese Einfluss auf die Nachfrage des Produkts haben. Die Maximierung 
eines Gütebeitrags kann mathematisch mit g; (r;) > max beschrieben werden. Die 
Beitragshöhe eines Produktionsfaktors i lässt sich mit Hilfe des Varianzparameters 
oi steuern. Dabei ist zu erreichen, dass in optimaler Menge eingesetzte Produktions- 
faktoren, die vergleichsweise teurer sind, einen größeren Beitrag zum Produkt-Fit 
leisten. Die Bestimmung des Streuparameters o? für jeden Produktionsfaktor i wird 
mittels des jeweiligen Faktorpreises p; modelliert”. Es ergibt sich: 


Die optimale Faktoreinsatzmenge, die dem Erwartungswert jz; entspricht, wird in 
Eberz (2018, S. 234) aus den vorgegebenen Faktorpreisen festgelegt und errechnet 
sich mit Hilfe der Differenz des Preises des teuersten Faktors und des jeweiligen 
Produktionsfaktors plus 1. Mathematisch ließe sich dies durch 


Hi = 8(Pmax — Pi + 1) 


ausdrücken, wobei Pmax den Preis des teuersten Faktors repräsentiert. Dabei ist 
jedoch unklar, ob die Funktion g(-) die identische Abbildung oder eine andere 


2 Eberz (2018, S. 233) verwendet zur Darstellung eines Faktorpreises die Notation i p- Um 
in der vorliegenden Arbeit die Notation konsistent zu halten, wird der Produktionsfaktor i, 
wie auch beispielsweise bei den Einsatzmengen r und den Gütebeiträgen ø, als Laufindex 
der Preise mit p; formuliert. Weiterhin ist anzumerken, dass Eberz (2018, S. 233) die Preise 
ganzzahlig modelliert. 
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monoton wachsende Funktion ist. Eberz (2018, S. 234) formuliert darauf aufbauend 
lediglich folgende axiomatische Annahme: 


„Je größer der preisliche Abstand zum teuersten Produktionsfaktor, desto höher die 
optimale Einsatzmenge des betrachteten Faktors.“ 


Eberz (2018, S. 233-235) stellt in seinen Ausführungen keinen eindeutigen Zusam- 
menhang zwischen der Einsatzmenge 7; und dem jeweiligen Preis p; eines Produkti- 
onsfaktors i heraus. Auf Grundlage der bisherigen Annahmen wird die Berechnung 
des Produkt-Fits für l verschiedene Produktionsfaktoren durch Eberz (2018, S. 235) 
folgendermaßen definiert: 


l 
1 
Pf = A. ir) 
i=l 


Zur Modellierung der Marktnachfrage verwendet Eberz (2018, S. 236) eine linear 
fallende Funktion, wobei der Prohibitiv-Preis Py als Schnittpunkt der Funktion 
mit der Ordinatenachse (Preis) und die Sättigungsmenge z als Schnittpunkt mit 
der Abszissenachse (abgesetzte Menge) definiert sind. Dieser Zusammenhang wird 
grafisch in Abbildung 3.2 veranschaulicht. 


Py 


Preis p 


> 


zZ 


Absatzmenge r 


Abb. 3.2 Grafische Darstellung der von Eberz (2018) formulierten Marktnachfrage-Funktion 
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Der Prohibitiv-Preis Py eines Produktes P wird mit Hilfe des Produkt-Fits Pr 
und des Selbstkostenpreises P; wie folgt berechnet: 


Py = Py -10- P. 


Eberz (2018, S. 236) bezieht in die Berechnung die Selbstkosten Px ein, da teurere 
Produktionsfaktoren einen höheren Prohibitiv-Preis begründen. Die Einbeziehung 
des Faktors 10 in die Berechnung des Prohibitiv-Preises hat gemäß Eberz (2018, S. 
236) die Funktion eines Multiplikators, wobei offengelassen wird, welchen Nutzen 
die Verwendung des Faktors bringt. 

Zur Beschreibung der Nachfragefunktion verwendet Eberz (Eberz, 2018, S. 236) 
die mathematische Form: 


r=h-p+z, 
wobei Ah durch 
A -F 1 
h = F = Pr _ 
Ap 1 Pr 


bestimmt wird. Die Mengenänderung Ar wird, bei einer Preisänderung von Ap = 
1, mittels des negativ inversen Produkt-Fits dargestellt. Zudem stellt die Mengenän- 
derung im Kontext der Nachfragefunktion, wie sie beispielsweise in Natrop (2012) 
beschrieben wird, eine Änderung der nachgefragten Gesamtmenge eines Gutes dar. 
Der Produkt-Fit Py in Eberz (2018, S. 235) bezieht sich auf die mengenabhängigen 
Gütebeiträge von Produktionsfaktoren zum Produkt. Inwiefern der Produkt-Fit eines 
Produktes inhaltlich in Zusammenhang mit der nachgefragten Menge des Produktes 
steht, lässt Eberz (2018) offen. 

Die nach dem erläuterten Vorgehen berechnete Nachfrage r wird während der 
Simulation nach jeder Simulationsperiode modifiziert. In Eberz (2018, S. 237 f.) 
wird die Nachfragemodifikation in fünf Teile untergliedert: 


1. Multiplikation der Nachfrage r mit einem Basismultiplikator, der durch das 
jeweilige Simulationsszenario bestimmt ist zur Festlegung eines Nachfrage- 
Niveaus 

2. Multiplikation der Marktnachfrage r mit einem Marktereignis-Multiplikator im 
Intervall [1; co) (Marktaufschwung) bzw. [0; 1] (Marktrezession). 

3. Anteilmäßige Verringerung der Nachfrage proportional zu den gehaltenen Markt- 
anteilen der virtuellen Konkurrenz 
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4. Multiplikation der Nachfrage r mit einem Marketing-Multiplikator 
5. Multiplikation der Nachfrage r mit einem Vertriebs-Multiplikator, der durch die 
Wahl des Vertriebskanals bestimmt ist 


Die interaktive Simulation, die in Eberz (2018, S. 107) beschrieben wird, beginnt für 
den FSim-Nutzer mit einem Erklärungsvideo zur Benutzung des Artefakts. Dabei 
erhält er einen Begrüßungsdialog mit dem Hinweis, dass Nutzer — im Rahmen des 
Programms - freie Handlungsmöglichkeiten besitzen und kein bestimmtes Verhal- 
ten von den Probanden erwartet wird. Im Anschluss wird dem Nutzer die von Eberz 
(2018, S. 107) definierte Szenario-Beschreibung angezeigt. Das für die Simulation 
zugrundeliegende Szenario wird durch FSim automatisch gewählt und spiegelt eine 
spezifische Handlungsumgebung inklusive des aktuellen Simulationszustandes und 
der Simulationsparameter wider. Die Parameterkonfiguration bildet die für Effec- 
tuation kennzeichnenden Merkmale knightsche Ungewissheit, Umgebungsisotro- 
pie und Zielambiguität ab. Eberz (2018, S. 124) verwendet zur Operationalisierung 
knightscher Ungewissheit das Konzept der Umgebungsturbulenz (Waldman et al., 
2001). Die Umgebungsisotropie wird mit Hilfe eines Indikators operationalisiert, 
der die Adäquatheit der zur Verfügung gestellten Informationen repräsentiert (Dun- 
can, 1972, S. 318). Die Operationalisierung der Ziel-Ambiguität wird mittels der 
Indikatoren von Stazyk und Goerdel (2011) zur Zielklarheit realisiert. 

Nach Initialisierung der FSim-Umgebung und Einführung des Nutzers in das Pro- 
gramm beginnt die interaktive Simulation, die durch Eingaben des Nutzers geprägt 
ist. Der Nutzer kann — ausgehend vom Szenariokontext — Handlungsentscheidun- 
gen anhand seines Vermögens, möglicher Rechtsformen und Lager sowie gehaltener 
Unternehmensanteile treffen. Nach Durchführung der Aktivitäten durch den Nutzer 
werden die Vertriebs- und Produktionsroutinen angestoßen und die entsprechen- 
den Parameter für die nächste Simulationsperiode gesetzt. Der Benutzer hat die 
Möglichkeit, am Ende jeder Simulationsperiode die Simulation zu beenden. Nach 
Beendigung des Simulationsteils hat der Nutzer die Möglichkeit, Fragen zum eige- 
nen Verhalten, zu Beobachtungen der Umgebung während der Simulation und seiner 
Persönlichkeit zu beantworten. Die daraus resultierenden Daten dienen gemäß den 
Ausführung in Eberz (2018) zur Bestimmung effektuativen und kausalen Verhal- 
tens. Die Offenlegung der in den Experimenten erfassten Befragungs- und Simula- 
tionsdaten ist nicht Bestandteil der Arbeit. Es erfolgt lediglich eine Darstellung der 
Verhaltensausmaße und Verhaltensunterschiede auf Grundlage der Daten. 
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3.1.4 Vergleich der Simulationsmodelle 


Um auf die in dieser Arbeit gestellte Forschungsfrage Antworten zu finden, werden 
die in den Abschnitten 3.1.1 bis 3.1.3 diskutierten Simulationsmodelle evaluiert 
und gegentibergestellt. Dadurch wird die Ableitung weiterer Modellierungsanfor- 
derungen ermöglicht. Zur Bewertung von Simulationsmodellen schlagen Gulyäs 
und Kampis (2015) ein Rahmenwerk vor, das sich auf Erkenntnisse aus Robin- 
son (1997) bezieht. In Robinson (1997) wird die Notwendigkeit von Verifikation 
und Validierung eines Simulationsmodells beschrieben. Dabei erlauben Verifika- 
tion und Validierung Ergebnisse einer Studie transparent und nachvollziehbar zu 
machen. Ausgehend von den Ausführungen von Sargent (1992) zu Verifikations- 
und Validierungsanforderungen während des Simulationsmodellierungsprozesses 
definiert Robinson (1997) verschiedene Arten der Validierung: 


e Konzeptuelle Modellvalidierung: Prüfung des Detailgrades des Modellkonzeptes 
gegen die Erkenntnisziele der Simulationsstudie 

e Datenvalidierung: Prüfung der Akkuratesse der für die Modellierung, Validie- 
rung und Experimentation geforderten Daten 

e White-Box-Validierung: Prüfung der Akkuratesse der Simulationselemente gegen 
die abzubildenden realweltlichen Systemelemente 

e Black-Box-Validierung: Prüfung der Akkuratesse des gesamten Simulationsmo- 
dells gegen das gesamte zu untersuchende realweltliche Phänomen 


Gulyäs und Kampis (2015) fassen die Validierungsanforderungen von Robinson 
(1997) zusammen und beziehen diese in die Entwicklung ihres Frameworks ein. 
Dabei werden folgende Kriterien für den Vergleich verschiedener Simulationsmo- 
delle identifiziert: 


e Validierung: Prüfung der Akkuratesse des Modells und der Modellelemente hin- 
sichtlich der tatsächlichen Abbildung bisheriger empirischer Modelle über die 
reale Welt. Konkret kann Validierung auch definiert werden als „substantiation 
that a computerized model within its domain of applicability possesses a satis- 
factory range of accuracy consistent with the intended application of the model“ 
(Schlesinger et al., 1979, S. 104) 

e Verifikation: Vergleich des implementierten Simulationsmodells mit den durch 
den Modellierer im Vorfeld definierten Spezifikationen 

e Replikation: Als Alternative zur Verifikation können die Ergebnisse einer repro- 
duzierten Implementierung mit den Ergebnissen einer bereits existierenden 
Implementierung desselben Modells verglichen werden 
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e Simulations-Docking: Als Alternative zur Verifikation können die Ergebnisse 
unterschiedliche Modellansätze mit demselben Simulationsziel miteinander ver- 
glichen werden 


Das SCS Technical Committee on Model Credibility hat eine Terminologie entwi- 
ckelt, um die Glaubwürdigkeit von Simulationsmodellen zu untersuchen (Schlesin- 
ger et al., 1979). Die Terminologie wurde in einem Rahmenwerk zusammengefasst, 
das in der Literatur weiterentwickelt und erweitert wurde (Robinson, 1997; Sar- 
gent, 2013). Die Zusammenhänge der Verifikations- und Validierungsprinzipien im 
Rahmen des Modellierungsprozesses von Sargent (2013) werden in Abbildung 3.3 
dargestellt und bauen auf dem entwickelten Modell in Schlesinger et al. (1979) 
auf. Abbildung 3.3 zeigt die Zusammenhänge im Modellierungsprozess zwischen 
den Elementen Realität als System, dem konzeptuellen Modell zur Beschreibung 
der analysierten Realität sowie dem computerisierten Modell in Form einer Imple- 
mentierung des konzeptuellen Modells zur Experimentierzwecken. Parallel dazu 
erfolgen die Verifikations- und Validierungsprozesse, die den Abgleich zwischen 
den Modellierungselementen beschreiben. Zum Vergleich und zur kritischen Dis- 
kussion der in den Abschnitten 3.2.1 und 3.2.2 vorgestellten effektuativen Simula- 
tionsmodelle wird insbesondere die Überprüfung der Modelle vorgenommen. Da 
den zu diskutierenden Modellen von Eberz (2018), Welter und Kim (2018) sowie 
Mauer et al. (2017) nur rudimentäre Hinweise zur Implemntierung der vorgestellten 
Modelle gegeben werden, wird eine konzeptuelle Validierung der Modelle vorge- 
nommen, wie sie in Sargent (2013) vorgestellt wird. Hierzu soll insbesondere geklärt 
werden, ob “(1) the theories and assumptions underlying the conceptual model are 
correct and (2) the model’s representation of the problem entity and the model’s 
structure, logic, and mathematical and causal relationships are ‘reasonable’ for the 
intended purpose of the model” (Sargent, 2013, S. 17). Zur Beantwortung dieser 
Modellvalidierungsfragen stellt Sargent (2013) Validierungstechniken vor. Die zur 
Beurteilung der betrachteten Simulationsmodelle relevanten Methoden sind: 


e Vergleich zu anderen Modellen: Gegeniiberstellung der Ergebnisse unterschied- 
licher (valider) Simulationsmodelle 

e Augenscheinvalidität (face validity): Überprüfung des Modellverhaltens hin- 
sichtlich der Nachvollziehbarkeit durch Domänenexperten 

e Interne Validierung: mehrfache Durchführung des Simulationsablaufs zur Über- 
prüfung der Variabilität des Modells 

e Operationalisierende Grafiken: Grafische Darstellung von Leistungswerten im 
Simulationszeitverlauf 
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Problem 
Entitat 


(System) 


Operationelle Konzeptionelle Modell 
Validierung Validierung 
f Experimente Analyse und Modellierung i 


Computer- ! Konzep- 
gestiitztes Computer Programmierung tionelles 
Modell und Implementierung Modell 


Computergestiitzte 
Modell Verifikation 


Abb. 3.3 Zusammenspiel zwischen Modellierungsprozess und Validierungs- und Verifikati- 
onsprozess nach Schlesinger (1979) 


Aufgrund der durch die Autoren Mauer et al. (2017), Welter und Kim (2018) und 
Eberz (2018) vorgestellten Modelleigenschaften und -daten wird zur Gegentiber- 
stellung der Simulationsmodelle das von Gulyäs und Kampis (2015) vorgeschla- 
gene Konzept des Simulations-Dockings verwendet, bei dem Simulationsmodelle 
mit demselben Simulationsziel miteinander verglichen werden. Zusätzlich werden 
zur deskriptiven Gegenüberstellung der effektuativen (und kausalen) Modelle und 
zur Beantwortung der von Sargent (2013) formulierten Modellvalidierungsfragen 
folgende Kriterien definiert: 


e Typ des Simulationsmodells 
e Ziel der Modellierung 
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Deskriptive Analyse der Modellierungs- und Simulationsansätze 
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Beeinflussende Modellparameter 
Modell-Ausgangsgrößen 
Modellmechanismen 

Ergebnisse der Simulation bzw. Befragung 
Implementierungsform 


In Tabelle 3.1 sind die gegenübergestellten Kriterien aufgeführt. 

Neben dem Vergleich der unterschiedlichen Simulationsmodelle werden in den 
Abschnitten 3.2.1 und 3.2.2 die Modelle von Mauer et al. (2017) und Welter und Kim 
(2018) zunächst im Rahmen der von Sargent (2013) vorgeschlagenen Augenschein- 
validität überprüft. Im Zuge dessen werden die bestehenden Modellierungsentwürfe 
und Ergebnispräsentationen kritisch diskutiert. 

Des Weiteren werden die Modelle einer internen Validierung unterzogen. Mit 
Hilfe der replizierten Implementierungen werden die Simulationsabläufe nachge- 
bildet und können anschließend mehrfach wiederholt werden. Dies entspricht der 
Anwendung der Simulation als Experimentierwerkzeug und erlaubt die Untersu- 
chung realweltlicher Phänomene unter kontrollierten Bedingungen (Peck, 2004). 

Die aus den Simulationen gewonnenen Ergebnisse können anschließend durch 
die Erstellung von Grafiken visualisiert werden. Dies erlaubt den Vergleich von 
Erkenntnissen, die einerseits aus der originären Simulation gewonnen wurden und 
andererseits aus einer Replizierung resultieren. 


3.2 Verifikation und Validierung der bestehenden 
effektuativen Simulationsmodelle 


Um die Ergebnisse von Mauer et al. (2017) und Welter und Kim (2018) nachzu- 
vollziehen, wird im Folgenden der Ansatz der Replikation der Simulationsmodelle 
nach Gulyäs und Kampis (2015) angewendet. Während bei der Verifikation bereits 
implementierte Simulationsmodelle mit einer im Vorfeld vom Modellierer definier- 
ten Spezifikation verglichen werden, werden bei der Replikation die Ergebnisse 
einer bereits bestehenden Implementierung mit den Ergebnissen einer reproduzier- 
ten Implementierung desselben Modells verglichen. Diese Form des Vergleichs wird 
im Kontext dieser Arbeit verwendet, da Implementierungsdetails, insbesondere in 
den Arbeiten von Mauer et al. (2017) und Welter und Kim (2018), nicht näher 
beschrieben werden. 

Die vorhandenen Modelle von Mauer et al. (2017) und Welter und Kim (2018) 
wurden mit der Programmiersprache Python implementiert. Python bietet durch 
seine einfache Syntax die Möglichkeit gut lesbaren Programmiercode zu erstellen. 
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Zudem können durch das Einbinden weiterer Bibliotheken zusätzliche Funktionali- 
täten genutzt werden, die vor allem im Bereich der wissenschaftlichen Programmie- 
rung Vorteile bringen (Oliphant, 2007). Im Rahmen der reproduzierten Implementie- 
rung wurden diesbezüglich die Programmbibliotheken numpy, pandas, matplotlib 
und weitere Standard-Python-Bibliotheken genutzt. Die konkreten Implementie- 
rungen der Modelle von Mauer et al. (2017) und Welter und Kim (2018) sind in 
Anhang B.1 und B.2 im elektronischen Zusatzmaterial zu finden. 

Das von Eberz (2018) interaktive Simulationsmodell wurde nicht als eigene 
Implementierung reproduziert. Die teils unzureichenden Beschreibungen der Simu- 
lationsroutinen, die für eine Replikation jedoch notwendig sind, und die Einbe- 
ziehung von Versuchsteilnehmern, deren zugrundliegende Merkmalsstruktur in 
der Nachbildung der Simulation berücksichtigt werden müsste, rechtfertigen den 
zusätzlichen Erkenntnisgewinn aus forschungsökonomischen Gründen nicht. 

Für die implementierten Replikationen wurden dieselben Parameterwerte ver- 
wendet, die in Mauer et al. (2017) und Welter und Kim (2018) genannt werden und 
die daraus resultierenden Ergebnisse mit den Ergebnissen der genannten Autoren 
verglichen. 


3.2.1 Kritische Evaluierung des Simulationsmodells von Mauer 
et al. (2017) 


Im Fall von Mauer et al. (2017) wurden im Zuge der kritischen Evaluierung die 
folgenden Parameter in die Untersuchung einbezogen: 


Anzahl der Artefakt-Vektorkomponenten (n) 

Anzahl der flexiblen Artefakt-Vektorkomponenten (m) 

Anzahl der möglichen Ausprägungen pro Artefakt-Vektorkomponente 
Anzahl der vorhersagebasierten Agenten 

Anzahl der steuerungsbasierten Agenten 

Anzahl der Konsumenten-Agenten 

Nachfragekonzentration (c) 


Ergänzend wurden zur Realisierung der Implementierung und der damit einher- 
gehenden Untersuchung des Simulationsmodells die Anzahl der Konsumenten- 
Agenten, die vorhersagebasierte Agenten zur Abschätzung der gesamten Nachfrage 
betrachten, sowie die Anzahl der Simulationsdurchläufe definiert. 

Vor Ausführung der reproduzierten Implementierung wurden die Parameter mit 
den in Mauer et al. (2017) genannten Werten initialisiert. Zur Untersuchung des 
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Einflusses der Änderung der Nachfragekonzentration c auf den mittleren Market- 
Fit werden initial die Parameterwerte 


n=5 
m=3 

k=2 

c=0.5 


verwendet. Die Anzahl der vorhersagebasierten und steuerungsbasierten Agenten 
wird jeweils auf den Wert 20 gesetzt. Die Anzahl der Konsumenten-Agenten wird 
auf den Wert 60 festgelegt. Die Anzahl der Simulationsdurchläufe beträgt im allge- 
meinen Fall 170. Zusätzlich wurde die Anzahl der Konsumenten-Agenten, die zur 
Abschätzung der Nachfrage notwendig sind, mit dem Wert 10 initialisiert. Dieser 
Parameter wurde in Mauer et al. (2017) nicht explizit aufgeführt, ist jedoch für die 
Durchführung der replizierten Simulation von Bedeutung. 

Die Nachfragekonzentration c, deren inhaltliche Erläuterung in Abschnitt 3.1.1 
zu finden ist, wurde mit dem Wert 0.5 initialisiert. Für den Fall, dass es zwei Merk- 
malsausprägungen (k = 2) gibt, treten demnach beide Ausprägungen über alle 
Komponenten aller Nachfragevektoren gleich häufig auf. 

Zum Vergleich der Simulationsergebnisse wurden die folgenden Aspekte des 
entrepreneurialen Problemraums und die damit in Verbindung stehenden Parame- 
teränderungen untersucht: 


Isotropie > Auswirkungen der Änderung der Nachfragekonzentration 
c während der Fertigstellung der Produkt-Artefakte durch 
die Anbieter-Agenten und der Produktdiversität k auf den 
mittleren Market-Fit 
Unvorhersagbarkeit > Auswirkungen der Änderung der Nachfragekonzentration 
c nach Fertigstellung der Produkt-Artefakte durch die 
Anbieter-Agenten auf den mittleren Market-Fit 
Ziel-Ambiguität— Auswirkungen der Änderung der flexiblen 
Artefakt-Vektorkomponenten m und Nachfragekonzentra- 
tion c auf den mittleren Market-Fit 


Auswirkungen bei Änderung der Isotropie 

Die Abbildungen 3.4 und 3.5 stellen das Verhalten der vorhersage- und steue- 
rungsbasierten Agenten bei sich ändernder Isotropie dar. Abbildung 3.4 zeigt die 
Änderung der Nachfragekonzentration c einer zufällig gewählten 
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Abb. 3.4 Vergleich der Simulationsergebnisse bei Anderung der Isotropie (Nachfragekon- 
zentration c wahrend der Artefakt-Erstellung) 


Merkmalsausprägung bei k = 2 und ihre Auswirkungen auf den mittleren Market- 
Fit während des Produkt-Artefakt-Erstellungsprozesses. Die Nachfragekonzentra- 
tion ist zunächst gleichverteilt über k = 2 Merkmalsausprägungen und ändert sich 
hin zu einer einseitigen Marktkonzentration der zufällig ausgewählten Merkmals- 
ausprägung, so dass diese von allen Nachfrage-Agenten präferiert wird. Abbildung 
3.4a zeigt in diesem Zusammenhang die Simulationsergebnisse von Mauer et al. 
(2017). Dabei sinkt der mittlere Market-Fit der vorhersage- und steuerungsbasier- 
ten Agenten mit steigender Nachfragekonzentration und damit sinkender Isotro- 
pie. Dem Ansatz von Gulyäs und Kampis (2015) folgend, erlaubt die Validierung 
der Ergebnisse gegen das realweltliche Phänomen keinen logischen Schluss, da — 
mit eindeutiger Präferenz der Nachfrager hinsichtlich einer Merkmalsausprägung 
— die Anbieter mit sinkender Isotropie den Markt während der Produkt-Artefakt- 
Erstellung schlechter einschätzen und somit einen niedrigeren Market-Fit erzielen. 
Die Ergebnisse der replizierten Implementierung zeigen im Gegensatz dazu in 3.4b, 
dass der mittlere Market-Fit beider Anbieter-Agenten-Typen mit sinkender Isotropie 
und damit steigender Nachfragekonzentration ebenfalls steigt. 

In beiden Fällen wird deutlich, dass der steuerungsbasierte Anbieter-Agent wäh- 
rend der Änderung der Nachfragekonzentration einen niedrigeren mittleren Market- 
Fit erzielt, als der vorhersagebasierte Anbieter-Agent, sofern c < 1. 

Zur weiteren Untersuchung des Verhaltens der vorhersage- bzw. steuerungsba- 
sierten Agenten bei Änderung der Isotropie wurde ebenfalls eine Variierung der 
Anzahl der Merkmalsausprägungen k vorgenommen. Dabei wirdk = 2,...,6 
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Abb. 3.5 Vergleich der Simulationsergebnisse bei Änderung der Isotropie (Anzahl der Merk- 
malsausprägungen k) 


gewählt und die Auswirkungen des Vorgehens der Anbieter-Agenten auf den mitt- 
leren Market-Fit beobachtet. 

Der Dominanzwert d wurde über die Variierung der Anzahl der Merkmalsausprä- 
gungen mit dem Wert 1.5 konstant gehalten. Hieraus ergibt sich, dass eine zufäl- 
lig gewählte Merkmalsausprägung mit der Wahrscheinlichkeit c = $ auftritt. Die 
verbleibenden k — 1 Merkmalsausprägungen treten folglich jeweils mit der Wahr- 
scheinlichkeit a auf. 

Abbildung 3.5 zeigt die Ergebnisse der Simulation von Mauer et al. (2017) 
und der replizierten Implementierung. In beiden Fallen nimmt der mittlere Market- 
Fit der vorhersage- und steuerungsbasierten Agenten mit zunehmender Produkt- 
Diversitat k ab. Demnach wirkt sich eine Zunahme der Isotropie negativ auf den 
Market-Fit aus. Weiterhin wird deutlich, dass der steuerungsbasierte Anbieter-Agent 
in jedem Fall einen geringeren mittleren Market-Fit erzielt. Dieses Verhalten ist 
sowohl in den Simulationsergebnissen von Mauer et al. (2017) und der replizierten 
Implementierung zu beobachten. 


Auswirkungen bei Anderung der Unvorhersagbarkeit 

Um die Auswirkungen der Anderung der Unvorhersagbarkeit auf den erziel- 
ten Market-Fit zu untersuchen, wurde erneut die Nachfragekonzentration c vari- 
iert, allerdings erst nach Fertigstellung der Produkt-Artefakte durch die Anbieter- 
Agenten. Die vorhersage- und steuerungsbasierten Agenten reagieren demnach 
nicht mehr unmittelbar auf einen sich ändernden Markt, sobald der Produkt- 
Erstellungsprozess abgeschlossen ist. 
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Die Abbildungen 3.6 und 3.7 zeigen die Simulationsergebnisse von Mauer 
et al. (2017) und der replizierten Implementierung im Kontext einer variieren- 
den Unvorhersagbarkeit bei einer Produktdiversität von k = 2 und einer Start- 
Wahrscheinlichkeit für das Auftreten einer zufällig gewählten Merkmalsausprägung 
von c = 0.2 der Konsumenten-Agenten. Für die replizierte Implementierung wurde 
eine andere Skalierung für die Werte von c gewählt als in Mauer et al. (2017) und ist 
in den Abbildungen 3.6, 3.7a und 3.7b ersichtlich. Dies hat keinen Einfluss auf die 
Ergebnisse der Simulationen. Die veränderte Skalierung ist jedoch aufgrund einer 
besseren Nachvollziehbarkeit im Kontext der replizierten Implementierung besser 
geeignet. 

Ein Vergleich der Ergebnisse der Implementierungen zeigt, dass die Anbieter- 
Agenten mit zunehmender Verschiebung der Nachfragekonzentration c nach Fer- 
tigstellung der Produkt-Artefakte einen geringeren mittleren Market-Fit erzielen. 
Demnach wirkt sich eine Zunahme der Unvorhersagbarkeit über die künftige Nach- 
frage negativ auf die Leistungsfähigkeit der Anbieter-Agenten aus. Die Leistungs- 
fähigkeit der steuerungsbasierten Agenten nimmt im Vergleich zu den vorhersage- 
basierten Agenten mit zunehmender Verschiebung der Nachfragekonzentration c 
allerdings schwächer ab. Ab einer Marktkonzentration c > 0.5 erzielt der steue- 
rungsbasierte Anbieter-Agent in jedem Fall einen größeren mittleren Market-Fit als 
der vorhersagebasierte Anbieter-Agent. 

Die Ergebnisse der replizierten Implementierung weisen nicht das volatile Ver- 
halten des steuerungsbasierten Agenten auf wie das in den Simulationsergebnissen 
von Mauer et al. (2017) zu beobachtende. Die Simulation der replizierten Implemen- 
tierung wurde, um das Verhalten nachvollziehen zu können, im Standardfall mit 170 
(Abbildung 3.7b) und 50 Durchläufen (3.7a) ausgeführt. In beiden Fällen folgt der 
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Abb. 3.6 Simulationsergebnisse nach Mauer et al. (2017) bei Änderung der Ungewissheit 
(Nachfragekonzentration c nach der Artefakt-Erstellung) 
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Abb. 3.7 Simulationsergebnisse der replizierten Implementierung bei Änderung der Unge- 
wissheit (Nachfragekonzentration c nach der Artefakt-Erstellung) 


Kurvenverlauf demselben Trend. Das Schwankungsverhalten konnte jedoch nicht 
reproduziert werden. Der in Abbildung 3.6 exakt lineare Zusammenhang zwischen 
Änderung der Nachfragekonzentration c und dem mittleren Market-Fit der vorher- 
sagebasierten Agenten konnte mit der von Mauer et al. (2017) beschriebenen Anzahl 
an Simulationsdurchläufen (50-170) ebenfalls nicht repliziert werden. Allerdings 
lässt sich beobachten, dass die Verläufe sich trendmäßig gleich verhalten. 


Auswirkungen bei Änderung der Ziel-Ambiguität 

Die Auswirkungen einer unterschiedlich stark ausprägten Ziel-Ambiguität wurden 
mit Hilfe der Änderung des Parameters m modelliert, der die Anzahl der flexiblen 
Komponenten in den Produkt-Artefakt-Vektoren widerspiegelt. Hierbei wurde der 
Parameter m von 0 bis 4 variiert und die Auswirkungen der Änderung der Nachfra- 
gekonzentration c auf den mittleren Market-Fit für die vorhersage- und steuerungs- 
basierten Agenten bei k = 2 untersucht. 

Die Ergebnisse der von Mauer et al. (2017) durchgeführten Simulation und der 
replizierten Implementierung sind in den Abbildungen 3.8, 3.9 und 3.10 zu sehen. 
Erneut wird ersichtlich, dass mit zunehmender Änderung der Nachfragekonzentra- 
tion c einer zufällig gewählten Merkmalsausprägung der erzielte mittlere Market-Fit 
der Anbieter-Agenten sinkt. Die steuerungsbasierten Agenten weisen im Fall von 
Mauer et al. (2017) bei einer hohen bis moderaten Zielspezifizierung von0 < m < 3 
eine ähnliche Leistungsfähigkeit auf (Abbildung 3.8). Bei einer geringen Zielspezi- 
fizierung von m > 3 ist die Leistungsfähigkeit der steuerungsbasierten Agenten, im 
Vergleich zu einer hohen bis moderaten Zielspezifizierung, tendenziell schlechter. 
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Die abweichende Leistungsfähigkeit der steuerungsbasierten Agenten bei m > 3 
konnte mit Hilfe der replizierten Implementierung bei 170 (Abbildung 3.10) bzw. 
50 Simulationsdurchläufen (Abbildung 3.9) nicht reproduziert werden. 

Bei den vorhersagebasierten Agenten zeigt sich bei Variation des Grades der 
Zielspezifizierung und Änderung der Nachfragekonzentration c ein ähnliches Ver- 
halten (vgl. Abbildung 3.8, 3.9 und 3.10). Mit steigender Nachfragekonzentration 
c wird für 0 < m < 5 ein niedrigerer Market-Fit erreicht. Mit zunehmender Ziel- 
Ambiguität fällt jedoch mit steigender Nachfragekonzentration c die Leistungsfä- 
higkeit stärker ab. Die Simulationsergebnisse in Abbildung 3.8, 3.9 und 3.10 weisen 
darauf hin, dass bei einer geringen Nachfragekonzentration c der zufällig gewählten 
Merkmalsausprägung für größer werdenden Parameter m eine höhere Leistungsfä- 
higkeit zu beobachten ist. Bei einer maximalen Nachfragekonzentration c zeigt sich 
das gegenteilige Verhalten, sodass mit größer werdender Ziel-Ambiguität m die 
Leistungsfähigkeit, in Form des mittleren Market-Fits, geringer wird. 

Im Gegensatz zu den Simulationsergebnissen von Mauer et al. (2017) in Abbil- 
dung 3.8 konnte in den Ergebnissen der replizierten Implementierung der exakt 
lineare Zusammenhang mit 50 (Abbildung 3.9) bzw. 170 Durchläufen (Abbildung 
3.10) nicht reproduziert werden. 


Diskussion der Simulationsergebnisse 
Grundsätzlich weisen die Ergebnisse von Mauer et al. (2017) und der Replikation 
in den untersuchten Kontexten Isotropie, Unvorhersagbarkeit und Ziel-Ambiguität 
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Abb. 3.8 Simulationsergebnisse nach Mauer et al. (2017) bei Änderung der Ziel-Ambiguität 
(Anzahl der flexiblen Komponenten m und Nachfragekonzentration c) 
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Abb. 3.9 Simulationsergebnisse der replizierten Implementierung bei Anderung der Ziel- 
Ambiguität (Anzahl der flexiblen Komponenten m und Nachfragekonzentration c) und 50 
Simulationsdurchläufen 


das trendmäßig gleiche Verhalten auf. Lediglich der Vergleich der Leistungswerte 
bei Änderung der Nachfragekonzentration während der Artefakt-Erstellung zeigt 
einen spiegelbildlichen Verlauf (siehe Abbildung 3.4). 

Da Mauer et al. (2017, S. 253) zu dem Schluss kommen, dass, wenn ,,[...] many 
people constantly want the same thing, prediction might be a valuable tool to reach 
fit with market demand“, ist davon auszugehen, dass die Darstellung der Achsens- 
kalierung in Abbildung 3.4a fehlerhaft ist. Verbal beschreiben Mauer et al. (2017) in 
ihrer Ergebnisdiskussion dasselbe Verhalten, welches sich in den Simulationsergeb- 
nissen der replizierten Implementierung in Abbildung 3.4b wiederfindet. Präferie- 
ren Konsumenten demnach ein spezielles Produktmerkmal im Vergleich zu anderen 
Ausprägungen stärker, können vorhersagebasierte Strategien erfolgsversprechender 
sein. 

Weist die Umgebung eines Entrepreneurs einen hohen Grad an Unvorhersag- 
barkeit auf und ist die konkrete Ausgestaltung von Produktmerkmalen noch nicht 
vollständig spezifiziert, bietet sich die Anwendung steuerungsbasierter Strategien 
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Abb. 3.10 Simulationsergebnisse der replizierten Implementierung bei Änderung der Ziel- 
Ambiguität (Anzahl der flexiblen Komponenten m und Nachfragekonzentration c) und 170 
Simulationsdurchläufen 


an. Je höher die Dynamik des und je ungewisser das Umfeld eines Entrepreneurs 
ist, desto sinnvoller ist ein steuerungsbasiertes Vorgehen. Diese Schlussfolgerun- 
gen lassen sich aus den Ergebnissen von Mauer et al. (2017) wie auch aus den 
replizierten Simulationsergebnissen ableiten. 


3.2.2 Kritische Evaluierung des Simulationsmodells von Welter 
und Kim (2018) 


Zur Nachvollziehbarkeit der Ergebnisse von Welter und Kim (2018) wurden die 
folgenden Parameter in der replizierten Implementierung (vgl. Anhang B.2 im elek- 
tronischen Zusatzmaterial) verwendet: 
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Anzahl der Entscheidungen innerhalb einer Entscheidungskonfiguration (N) 
Anzahl der in Verbindung stehenden Entscheidungen (K) 

Anzahl der gesamten Simulationszeitschritte (T) 

Periodenlänge, nach der die NK-Landschaft mittels t einen Schock erfährt (Ts) 
Grad der Ungewissheit (T) 

Anzahl der Entscheidungen einer Entscheidungskonfiguration, die während des 
Suchprozesses fix sind (0) 

e Wahrscheinlichkeit, mit der jede der o Entscheidungen den korrespondierenden 
Entscheidungen des globalen Maximums entsprechen (A) 


Ergänzend wurden zur Realisierung der Implementierung und der damit einherge- 
henden Untersuchung des Simulationsmodells die Anzahl der möglichen Ausprä- 
gungen einer Entscheidung (Q) und die Anzahl der Simulationsdurchläufe definiert. 

Vor der Ausführung der reproduzierten Implementierung wurden die Parameter 
mit den in Welter und Kim (2018) vorgestellten Werten initialisiert. Zur Untersu- 
chung des Einflusses der Änderung der Wahrscheinlichkeit A und des Grades der 
Ungewissheit t auf die mittlere Leistungsfähigkeit von Unternehmen bei unter- 
schiedlichem o wurden die Parameterwerte 


N=10 te {0,0.1,..., 0.9, 1} 

K=8 o = 2 (Effectuation) bzw. @ = 8 (Causation) 
T = 200 A € {0,0.1,..., 0.9, 1} 

Ts = 10 Q=2 


verwendet. Die Anzahl der Simulationsdurchläufe wurde auf 300 festgelegt”. 

Der Vergleich der Ergebnisse der effektuativ und kausal handelnden Unterneh- 
men findet im Kontext unterschiedlicher Ausprägungen von Risiko bzw. Ungewiss- 
heit und der Fähigkeit Vorhersagen zur Leistungsfähigkeit zu treffen statt. Diese 
werden mittels der Parameter t und A modelliert: 


Risiko bzw. Ungewissheit > Auswirkungen der Änderung von t auf die mittlere 
Leistungsfähigkeit eines Unternehmens. Je kleinere 


3 Welter und Kim (2018) verwenden für ihre Simulationszwecke 25.000 Simulationsdurch- 
läufe. Da ein Vergleich der Ergebnisse von Welter und Kim (2018) und der replizierten Imple- 
mentierung lediglich auf visueller Ebene erfolgt, werden die Genauigkeitsverluste durch die 
geringere Anzahl an Simulationsdurchläufen im replizierten Simulationsmodell in der vor- 
liegenden Betrachtung akzeptiert. 
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Werte t annimmt, desto eher befindet sich das Unter- 
nehmen in einem von Risiko geprägten Umfeld. Je 
größere Werte annimmt, desto eher ist die Umge- 
bung des Unternehmens von Ungewissheit geprägt. 

Vorhersagefähigkeit > Auswirkungen der Änderung von X auf die mittlere 
Leistungsfähigkeit des Unternehmens. Mit wach- 
sendem A steigt die Wahrscheinlichkeit des Unter- 
nehmens o optimale Entscheidungen, und damit den 
besten Leistungswert in der NK-Landschaft, voraus- 
zusagen. 


Auswirkungen bei Änderung des Grades der Ungewissheit und der Vorhersa- 
gefähigkeit 

Die in den Konturdiagrammen 3.1la und 3.11b dargestellten Ergebnisse zeigen 
die ermittelten mittleren Leistungswerte bei Variation der Parameter t und A für 
e = 2 und o = 8 von Welter und Kim (2018). Während dunklere Rottöne ver- 
gleichsweise niedrige Leistungswerte repräsentieren, beschreiben hellere Rottöne 


vergleichsweise hohe Leistungswerte. 
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Abb. 3.11 Simulationsergebnisse nach Welter und Kim (2018) bei Änderung des Grades der 
Ungewissheit (t) und der Vorhersagefähigkeit (À) 


Im effektuativen Fall (vgl. Abbildung 3.1 1a) sind in Kontexten, die nahezu aus- 
schließlich von Ungewissheit bzw. nahezu ausschließlich von Risiko geprägt sind, 
höhere Leistungswerte zu beobachten als in Bereichen, die eine Mischform von 
Ungewissheit und Risiko darstellen. 

Bei kausal modelliertem Verhalten (vgl. Abbildung 3.11b) sind für große Werte 
von A über das gesamte Kontinuum von Ungewissheit bis Risiko im Mittel höhere 
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Leistungswerte zu verzeichnen als bei kleinen Werten von A. Mit wachsender 
Akkuratesse der Vorhersage der optimalen Entscheidungskonfiguration des Unter- 
nehmens werden demzufolge höhere Leistungswerte erzielt. 

Aufgrund dessen, dass im effektuativen Fall (vgl. Abbildung 3.11a) ein größerer 
Anteil an Fläche mit helleren Rottönen als im kausalen Fall (vgl. Abbildung 3.11b) 
zu beobachten ist, ist darauf zu schließen, dass das effektuativ handelnde Unter- 
nehmen im Mittel über alle Parameterkonfigurationen von t und A einen höheren 
Leistungswert erreicht als das kausal handelnde Unternehmen. 

Um die Ergebnisse von Welter und Kim (2018) nachzuvollziehen, wurden eben- 
falls über die Parameterkonfigurationen von t und A mit Hilfe der replizierten Imple- 
mentierung, wie sie in Anhang B.2 im elektronischen Zusatzmaterial zu finden ist, 
simuliert. Die resultierenden Konturdiagramme werden in 3.12a und 3.12b darge- 
stellt. 
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(a) Simulationsergebnisse der replizier- (b) Simulationsergebnisse der replizier- 
ten Implementierung für o = 2 ten Implementierung für o = 8 


Abb. 3.12 Simulationsergebnisse der replizierten Implementierung bei Anderung des Grades 
der Ungewissheit (t) und der Vorhersagefähigkeit (A) 


In extremen Bereichen nahe t = O und t = 1 treten bei variierendem A im 
effektuativen Fall derreplizierten Simulationsergebnisse vergleichsweise hohe Leis- 
tungswerte auf (vgl. Abbildung 3.12a). Dies deckt sich mit dem Verhalten der Simu- 
lationsergebnisse von Welter und Kim (2018). Unterschiede zeigen sich jedoch in der 
Konzentration der vergleichsweise hohen Leistungswerte. Die replizierten Simula- 
tionsergebnisse sind für den Fall, dass o = 2, annähernd symmetrisch um den Wert 
t = 0.5 verteilt. In den Ergebnissen von Welter und Kim (2018) hingegen zeigt 
sich, dass der Bereich mit vergleichsweise hohen Leistungswerten für große Werte 
von T größer als für kleine Werte von t — und damit nicht symmetrisch - ist. 


3.2 Verifikation und Validierung der bestehenden effektuativen Simulationsmodelle 85 


Weiterhin reichen die Leistungswerte von Welter und Kim (2018) gemäß der 
in der Abbildung 3.11b dargestellten Skala von 0.5 bis 0.8, wobei aufgrund der 
Wahl des Farbschemas nicht eindeutig festgestellt werden kann, ob diese Werte 
vom effektuativen Agenten tatsächlich erreicht wurden. Erst Abbildung 3.13a gibt 
Aufschluss darüber, welche Leistungswerte tatsächlich erreicht werden. Demnach 
werden Werte von größer als 0.5 bis 0.8 erreicht. 
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Abb. 3.13 Simulationsergebnisse nach Welter und Kim (2018) bei Anderung der Vorhersa- 
gefahigkeit (A) 


Im Vergleich dazu befinden sich die Leistungswerte in der replizierten Simula- 
tion für 0 = 2 in einem kleineren Intervall, das von 0.608 bis 0.672 reicht. Für den 
kausal modellierten Fall der replizierten Implementierung (o = 8) werden Leis- 
tungswerte von 0.6 bis 0.76 beobachtet. Erneut sind die Leistungswerte annähernd 
symmetrisch um den Parameterwert t = 0.5 verteilt. Für den Fall, dass A < 0.5 
ist, treten, wie bei ọ = 2, in den Extrembereichen nahe t = 0 und t = 1, ver- 
gleichsweise höhere Leistungswerte auf. Dieses Verhalten unterscheidet sich von 
den Ergebnissen von Welter und Kim (2018) in Abbildung 3.12b. Dort sind für Werte 
von à < 0.5 lediglich in sehr ungewissen Kontexten (nahe t = 1) vergleichsweise 
höhere Leistungswerte zu beobachten. Tendenziell steigen die Leistungswerte der 
replizierten Simulation mit wachsendem A. Die Simulationsergebnisse von Welter 
und Kim (2018) zeigen ebenfalls ein Ansteigen der Leistungswerte für größer wer- 
dendes A. Diese konzentrieren sich für große Werte von A allerdings überwiegend 
im Bereich großer Werte von T. 
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Auswirkungen bei Änderung der Vorhersagefähigkeit 

Der Einfluss der Vorhersagefähigkeit A auf die Leistungsfähigkeit effektuativer 
(o = 2) und kausaler (ọ = 8) Unternehmen für den reinen Risiko-Kontext (t = 0) 
bzw. Kontext der Ungewissheit nach Welter und Kim (2018) ist in den Abbildungen 
3.13a bzw. 3.13b ersichtlich. Die Darstellungen sind Spezialfälle von 3.11 für die 
Extremfälle t = 0 und t = 1. Für den Fall, dass 7 = 0 ist, zeigt sich, dass effek- 
tuativ agierende Unternehmen (o = 2) im Mittel höhere Leistungswerte erzielen 
als kausal handelnde Unternehmen (o = 8). Die Leistungswerte bei ọ = 2 fallen 
mit größer werdenden A zunächst schwach, bis sie anschließend wieder progressiv 
wachsen. Die Leistungswerte bei o = 8 weisen ein ähnliches Verhalten auf, wobei 
diese bei großen Werten von A vergleichsweise schneller progressiv wachsen als 
die Leistungswerte des effektuativen Unternehmens. Die Leistungswerte bei ọ = 8 
sind für Werte von A nahe 1 größer als bei ọ = 2. Demnach sind kausal agierende 
Unternehmen in stark risikoorientierten Kontexten erst mit hoher Vorhersagefähig- 
keit leistungsfähiger als effektuative Unternehmen. 

In sehr ungewissen Kontexten (t = 1) bleiben die Leistungswerte bei o = 2 mit 
variierendem A konstant. Während die Leistungswerte für o = 8 im Vergleich zu 
o = 2 für Werte von A < 0.5 kleiner sind, wachsen diese anschließend mit größer 
werdendem A progressiv an. Ab A > 0.9 werden mit o = 8 in jedem Fall höhere 
Leistungswerte erzielt als mit @ = 2. Bei hoher Präzision der Vorhersage von kausal 
handelnden Unternehmen sind in sehr ungewissen Kontexten (t = 1) die Leistungs- 
werte des kausal handelnden dem des effektuativ agierenden Unternehmens deutlich 
überlegen, wenngleich im Falle von Effectuation im Mittel bessere Leistungswerte 
im Gegensatz zu Causation erzielt werden. Diese Erkenntnis würde dem bisherigen 
Verständnis zu Effectuation widersprechen, lässt sich jedoch damit begründen, dass 
„in uncertain environments, causation outperforms effectuation at a lower thres- 
hold not because causation is much better in uncertain contexts but because effec- 
tuation performs worse in uncertain contexts than in risky ones.“ (Welter & Kim 
2018, S. 108). Anders ausgedrückt ermöglicht Effectuation Entrepreneuren durch 
Experimentierfreudigkeit leistungsfähig zu sein. Kausale Logik hingegen zeigt, wie 
präzise die Vorhersagefähigkeiten von Entrepreneuren sind. Sind Entrepreneure in 
der Lage gute Vorhersagen zu treffen, erzielen sie auch gute Leistungswerte. Fehlt 
kausal handelnden Entrepreneuren diese Fähigkeit, werden sie wahrscheinlich von 
effektuativ handelnden Entrepreneuren überboten. Zum Vergleich der Simulations- 
ergebnisse sind in 3.14a und 3.14b die Resultate der korrespondierenden replizierten 
Implementierung ersichtlich. 

In eher risikoreichen Umgebungen (t = 0) verhalten sich kausal agierende 
Unternehmen (o = 8) in der replizierten Simulation ähnlich wie in den Ergebnissen 
von Welter und Kim (2018). Ab Werten von A > 0.5 steigen die Leistungswerte 
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Abb. 3.14 Simulationsergebnisse der replizierten Implementierung bei Anderung der Vor- 
hersagefähigkeit (A) 


progressiv an. Abweichungen ergeben sich jedoch im Spektrum der erreichten Leis- 
tungswerte. Während bei Welter und Kim (2018) Werte zwischen nahe unterhalb 
0.6 und nahe 0.8 erreicht werden, reichen die Leistungswerte des kausal handelnden 
Unternehmens der replizierten Simulationsergebnisse lediglich von nahe 0.64 bis 
nahe 0.76. Die Ergebnisse der replizierten Implementierung des effektuativ agieren- 
den Unternehmens weichen ebenfalls von den Resultaten der Simulation von Welter 
und Kim (2018) ab. Entsprechend ist bei den replizierten Simulationsergebnissen in 
risikoreichen Kontexten, anders als bei den Ergebnissen von Welter und Kim (2018), 
kein progressiver Kurvenverlauf ersichtlich. Effektuative Unternehmen reagieren in 
ihrer Leistungsfähigkeit folglich nicht signifikant auf einen Anstieg der Vorhersa- 
gefähigkeit. Dies wiederum hat zur Folge, dass kausale Unternehmen, im Fall der 
replizierten Simulation, bereits bei kleineren Werten von A höhere Leistungswerte 
erzielen als effektuative Unternehmen im Vergleich zu Welter und Kim (2018). Im 
Gegensatz zu Welter und Kim (2018) erreicht das kausale Unternehmen der repli- 
zierten Simulation bereits bei kleineren Werten von A größere Leistungswerte als 
das effektuative Unternehmen. 

Die Streuung der Leistungswerte bei Variation von A kann in Abbildung 3.15 
nachvollzogen werden. Im Fall, dass 9 = 8 ist, nimmt die Streuung der Leistungs- 
werte mit steigendem A zu. Die in den Abbildungen abgetragenen Whisker spiegeln 
den 1.5-fachen Interquartilsabstand wider. Verlängern sich die Whisker, steigt auch 
die Streuung der Werte. Die in den Boxes zu findenden schwarzen Linien repräsen- 
tieren den Median der aus der Simulation für unterschiedliche A erhaltenen Leis- 
tungswerte. Die Boxes selbst geben die Spannweite des oberen und unteren Quartils 
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an. Schwarze Kreise symbolisieren Ausreißer, die außerhalb des 1.5-fachen Inter- 
quartilsabstandes — ausgehend vom unteren bzw. oberen Quartil — gelegen sind. 
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Abb. 3.15 Streuung der Simulationsergebnisse der replizierten Implementierung bei Ande- 
rung der Vorhersagefähigkeit (X) 


Die Ergebnisse von Welter und Kim (2018) für variierenden Parameter à und 
t = 0 können nicht vollumfänglich reproduziert und bestätigt werden. 

Für stark ungewisse Kontexte (t = 1) weisen effektuativ und kausal handelnde 
Unternehmen in den Ergebnissen von Welter und Kim (2018) und der replizierten 
Implementierung ein ähnliches Verhalten auf, wie in den Abbildungen 3.13b und 
3.14b ersichtlich ist. Für effektuative Unternehmen hat die Variation der Vorhersage- 
fähigkeit keinen wesentlichen Einfluss auf die Höhe der Leistungswerte. Lediglich 
ein leichter Anstieg der Leistungsfähigkeit geht mit wachsendem A einher. Tenden- 
ziell erzielen das effektuative und kausale Unternehmen im replizierten Fall höhere 
Leistungswerte als bei Welter und Kim (2018). Für den Fall, dass sich effektua- 
tive und kausale Unternehmen in einer ungewissen Umgebung befinden (7 = ]), 
kann deren grundsätzliches Verhalten bei variierender Vorhersagefähigkeit bestätigt 
werden. 


Auswirkungen bei Änderung des Grades der Ungewissheit 

Der Einfluss von Risiko bzw. Ungewissheit (t) auf die Leistungsfähigkeit effek- 
tuativer (9 = 2) und kausaler (o = 8) Unternehmen für verschiedene Werte der 
Vorhersagefähigkeit (A = 0, A = 0.5 und A = 1) ist in Abbildung 3.16 dargestellt. 
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Es wird deutlich, dass mit variierendem r für o = 2 generell höhere Leistungswerte 
als bei ọ = 8 erzielt werden, für den Fall, dass A = 0 (vgl. 3.16a) und A = 0.5 
(vgl. 3.16b) ist. Ist A = 1 (vgl. 3.16c) werden bei ọ = 8 für alle abgetragenen 
t höhere Leistungswerte erreicht, als bei ọ = 2. Es wird zudem deutlich, dass, 
unabhängig von A, die Werte bei ọ = 2 und ọ = 8 vont = 0 zur = 0.2 jeweils 
vergleichsweise stark fallen und für t > 0.2 wieder wachsen. Effektuativ handelnde 
Unternehmen erreichen bei schlechter (A = 0) und mittlerer (A = 0.5) Präzision 
der Vorhersagefähigkeit von sehr risikoorierentierten (t = 0) bis sehr ungewis- 
sen (t = 1) Kontexten bessere Leistungswerte als kausal agierende Unternehmen. 
Lediglich bei hoher Präzision der Vorhersagefähigkeit schneiden kausal agierende 
Unternehmen besser als effektuative Unternehmen ab. 
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Abb. 3.16 Simulationsergebnisse der replizierten Implementierung bei Anderung der Vor- 
hersagefähigkeit (X) 
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Effektuative wie kausale Unternehmen erzielen, unabhängig von ihrer Vorher- 
sagefähigkeit, die höchsten Leistungswerte in sehr risikoorientierten (t = 0) und 
sehr ungewissen (t = 1) Kontexten. 

Die Untersuchungsergebnisse der replizierten Simulation bei Variation des Para- 
meters T zur Steuerung der Ungewissheit bzw. des Risikos unter Beachtung unter- 
schiedlicher Werte für den Vorhersagefähigkeitsparameter A (0, 0.5, 1) sind in den 
Abbildungen 3.17a, 3.17b und 3.17c dargestellt. Wie auch bei den Resultaten von 
Welter und Kim (2018) erzielen effektuative Unternehmen der replizierten Simula- 
tion bei à = O und à = 0.5 und variierendem t in jedem Fall höhere Leistungswerte 
als kausal agierende Unternehmen; bei hoher Vorhersagefähigkeit (A = 1) schnei- 
den kausal handelnde Unternehmen generell besser ab. Deutliche Unterschiede erge- 
ben sich bei Betrachtung des Verlaufs der Leistungswerte mit wachsendem r. Die 
Leistung effektuativer und kausaler Unternehmen fällt zunächst mit wachsendem 
t und steigt dann wieder wie in 3.17 deutlich wird. Im Falle von Welter und Kim 
(2018) vollzieht sich der Leistungsabfall bereits zwischen den Werten für t von 0 
und 0.2. Für t = 0 werden fiir 9 = 2 und o = 8 die höchsten Leistungswerte erzielt 
(vgl. Abbildung 3.16). Die Ergebnisse der replizierten Implementierung zeigen ein 
anderes Verhalten. Ein abrupter Leistungsabfall fiir Werte von t zwischen 0 und 0.2 
lässt sich nicht beobachten. Vielmehr fallen die Leistungswerte bis näherungsweise 
t = 0.5 und steigen danach mit derselben Intensität wieder an. Grundsätzlich zei- 
gen die Ergebnisse für effektuative und kausale Unternehmen bei Welter und Kim 
(2018) und der replizierten Implementierung ein ähnliches Verhalten. Signifikante 
Unterschiede ergeben sich bei Betrachtung der Differenz von Leistungswerten für 
aufeinanderfolgende Werte von t. Kausale und effektuative Agenten der replizier- 
ten Simulation reagieren entsprechend weniger sensibel auf Änderung des Risikos 
bzw. der Ungewissheit als bei Welter und Kim (2018). 


Diskussion der Simulationsergebnisse 

Grundsätzlich ist festzustellen, dass Effectuation so lange besser als kausale Logik 
ist, bis ein Entrepreneur leistungsstarke Entscheidungskonfigurationen mit hoher 
Akkuratesse voraussagen kann. In sehr ungewissen Kontexten erzielen kausal han- 
delnde Entrepreneure mit stark ausgeprägten Vorhersagefähigkeiten bessere Leis- 
tungen als effektuativ handelnde Entrepreneure. 

Welter und Kim (2018) konstatieren, dass die Leistungsfähigkeit — unabhän- 
gig vom verwendeten Vorgehen — am größten ist, wenn die Umgebung nicht von 
Ungewissheit geprägt ist. Diese Einschätzung kann auf Grundlage der Ergebnisse 
der replizierten Implementierung nicht bestätigt werden. Die höchsten Leistungs- 
werte werden bei ausschließlich ungewissen und ausschließlich risikoorientierten 
Umgebungen erreicht. Die Erkenntnis aus den replizierten Simulationsergebnissen, 
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Abb. 3.17 Simulationsergebnisse der replizierten Implementierung bei Anderung der Vor- 
hersagefähigkeit (X) 


dass die Leistungswerte nach der Einführung von Ungewissheit zunächst fallen, um 
anschließend wieder mit dem annähernd gleichen Anstieg zu steigen, deckt sich mit 
den Aussagen von Welter und Kim (2018). 


3.2.3 Kritische Einordnung der Simulationsansätze 


Mit Hilfe der deskriptiven Analyse der effektuativen Simulationsmodelle konnte 
die Grundlage für die kritische Evaluierung der Ansätze von Mauer et al. (2017) 
und Welter und Kim (2018) geschaffen werden. Die Überführung der Verfahren in 
mathematische Modelle folgt den konzeptuellen Validierungsprinzipien von Sar- 
gent (2013) und ermöglicht so die notwendige Transparenz für die Interpretation 
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der Simulationsergebnisse. Die formalisierte Darstellung der Ansätze liefert erste 
Erkenntnisse darüber, inwieweit effektuatives Entscheidungsverhalten modelliert 
werden kann. 

Aufbauend auf den mathematischen Modellbeschreibungen stellen die Algorith- 
men 1 und 2 einen weiteren Schritt zur von Schlesinger et al. (1979) geforderten 
konzeptuellen Modellformalisierung dar. Die Algorithmen dienen als Basis für die 
Implementierung der Simulationsmodelle, welche wiederum die Voraussetzung für 
die Erzeugung der replizierten Ergebnisse sind. Durch Vergleich der Simulations- 
ergebnisse wird die Verifikation der Modelle ermöglicht. 

Die Ergebnisse von Mauer et al. (2017) und Welter und Kim (2018) 
sowie der replizierten Simulationen zeigen, dass Effectuation im Gegensatz zur 
kausalen Strategie in einer vorrangig ungewissen Umgebung effizienter ist. Diese 
Beobachtungen decken sich mit den bisherigen Erkenntnissen aus der Effectuation- 
Forschung (Grégoire & Cherchem, 2019; Read, Dew et al., 2009). Die Modellie- 
rung von Ungewissheit ist in den in Kapitel 3 vorgestellten Arbeiten zentral. Zur 
weiteren Untersuchung entrepreneurialen Verhaltens ist die Umgebungsmodellie- 
rung von Mauer etal. (2017) und Welter und Kim (2018) durch weitere Merkmale 
gekennzeichnet. 

Tragend für die Simulationsmodelle von Mauer et al. (2017) und Welter und 
Kim (2018) sind die verschiedenen Kontexte, in denen entrepreneuriale Agenten 
agieren. Mauer et al. (2017) und Welter und Kim (2018) untersuchen hierbei die 
Leistungsfähigkeit von effektuativ und kausal handelnden Agenten. Während Mauer 
et al. (2017) die Leistungsunterschiede im Zusammenhang mit Informationsisotro- 
pie, Ziel-Ambiguität und Ungewissheit beleuchten, legen Welter und Kim (2018) 
den Schwerpunkt auf eine ungewisse bis risikoorientierte Umgebung sowie die 
Vorhersagefähigkeit der Agenten. Die Analyse der Ansätze in Kapitel 3 gibt Auf- 
schluss darüber, dass effektuatives Entscheidungsverhalten unmittelbar durch die 
Umgebung, in der sich ein Entrepreneur befindet, beeinflusst wird. 

Die Interaktion der Agenten mit der jeweiligen Umgebungssituation basiert auf 
einem statischen Entscheidungsverhalten. Mauer et al. (2017) präsentieren für effek- 
tuativ sowie kausal handelnde Agenten verschiedene Vorgehen. Kausale Agenten 
passen flexible Produktvektorkomponenten anhand einer Stichprobe der momenta- 
nen Nachfrage an. Effektuative Agenten hingegen nehmen diese Anpassung auf- 
grund der Kommunikation mit dem Partnernetzwerk vor. Welter und Kim (2018) 
verwenden für kausal wie auch effektuativ handelnde Agenten das Hill-Climb- 
Verfahren (Csaszar & Siggelkow, 2010; Rivkin, 2000). Dieses Vorgehen ist dadurch 
gekennzeichnet, dass ein Agent bestrebt ist sein Leistungsniveau bei jeder Entschei- 
dung zu verbessern, auch wenn dies langfristig nicht zwangsläufig zum bestmög- 
lichen Leistungsniveau führt. Bisherige Modellansätze fokussieren demnach nicht 
auf das Lernverhalten der Agenten. 
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Forschungsmethodik 4 


Ziel der vorliegenden Arbeit ist es, effektuatives Verhalten algorithmisch zu model- 
lieren und interpretieren. Dadurch sollen zum einen Erkenntnisse darüber gewon- 
nen werden, wie Effectuation erlernt wird. Andererseits soll damit die Grundlage 
geschaffen werden, effektuative Entscheidungsfindung automatisiert anwendbar zu 
machen. Insgesamt soll damit ein Beitrag zur Weiterentwicklung des Theorienge- 
rüsts von Effectuation geleistet werden. 

Zur Erreichung des genannten Ziels und zur Beantwortung der in Abschnitt 
1.2 erläuterten Forschungsfrage ist der Einsatz von Agentenbasierten Modellen (in 
der Folge ABM), der Argumentation von Garcia (2005) folgend, zweckdienlich. 
Konkret wird diesbezüglich die Auffassung vertreten, dass „simulation should be 
used as a tool for the refinement of theory“ (Garcia, 2005, S. 382). Weiterhin fordern 
Chandler et al. (2011) und Alsos et al. (2019), dass die Operationalisierung und 
Messbarkeit von Effectuation weiterentwickelt werden muss. Die Verwendung von 
ABM als Untersuchungsmethode wird dieser Forderung gerecht, da „by simulating 
an approximation of real world behavior that may be difficult to capture in static 
models, the ABM approach focuses on how processes evolve over time and how 
policies might be changed to affect the outcomes of an evolving system“ (Garcia, 
2005, S. 382). 

ABM eignen sich gemäß Bonabeau (2002) insbesondere bei der Beschreibung 
realweltlicher unternehmerischer Probleme und weisen folgende Eigenschaften auf: 
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e ABM bieten die Möglichkeit emergente Phänomene zu erfassen. 
e ABM stellen eine natürliche Beschreibung eines Systems zur Verfügung. 
e ABM sind flexibel in ihrer Ausgestaltung. 


Dabei repräsentieren ABM Prozesse, bei denen davon auszugehen ist, dass sie in 
der sozialen Welt existieren (Macy & Willer, 2002). 

Gupta et al. (2016) fordern darüber hinaus die künftige Betrachtung von Effec- 
tuation aus einer insbesondere prozessorientierten Sicht und die Abkehr von einer 
rein varianzbasierten Perspektive. Varianztheoretische Betrachtungen zielen auf die 
Einordnung eines Phänomens in ein Marktgleichgewicht ab (Chiles et al., 2009) 
und verkennen so die diskontinuierlichen Marktdynamiken entrepreneurialer Phä- 
nomene (Gupta et al., 2016). Payne et al. (2016) stellen heraus, dass die Betrachtung 
einer Problemstellung aus prozesstheoretischer Sicht die Frage nach der emergen- 
ten Entwicklung eines Phänomens über die Zeit adressiert. Wie Bonabeau (2002) 
konstatieren, eignen sich ABM zur Untersuchung sich über die Zeit emergent ver- 
haltender Systeme. 

Die von Mauer et al. (2017) und Welter und Kim (2018) verwendeten ABM 
erlauben die Interaktion von Agenten in emergenten Systemen, vernachlässigen 
jedoch aufgrund des statischen Verhaltensregelsatzes der Agenten das dynamische 
Anpassen des Vorgehens aufgrund von neuen Erfahrungen. Die Agenten in den 
Modellen von Mauer et al. (2017) und Welter und Kim (2018) werden das kurzfris- 
tige Erreichen schlechterer Leistungswerte in der unmittelbaren Umgebung nicht 
zugunsten einer möglichen langfristigen Leistungsmaximierung in Kauf nehmen. 
Folglich wird nur ein Teil des realweltlichen Phänomens abgebildet, da (effektuativ 
agierende) Entrepreneure aus dem Wechselspiel zwischen Exploration und Exploi- 
tation ihrer Umgebung lernen (Yang & Chandra, 2013). 

Dass die Modellierung von Lern- und Entscheidungsverhalten durch den Einsatz 
von RIL im Rahmen von ABM sinnvoll ist, wurde durch Bone und Dragićević (2010) 
veranschaulicht. Zudem konnte durch Haiyan (2018) nachgewiesen werden, dass 
RIL im Kontext von entrepreneurialen Problemen anwendbar ist. 

Inwiefern ABM grundlegend aufgebaut werden und Abläufe gestaltet werden 
können, beschreiben Abdou et al. (2012). Demnach bestehen ABM im Wesentli- 
chen aus Agenten und der korrespondierenden Umgebung. Weitere charakteristische 
Elemente von ABM sind 


eine Menge von Verhaltensregeln des Agenten, 
ein Arbeitsgedächtnis des Agenten, 

ein adäquates Lernverhalten des Agenten sowie 
das Modell der Umgebung. 
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In RIL werden diese Elemente ebenfalls bei der Modellierung von Entscheidungs- 
problemen beriicksichtigt (Abbeel & Ng, 2004; Mnih et al., 2016; Sutton & Barto, 
2018). Die in den folgenden Abschnitten vorgeschlagene Modellierung effektuati- 
ven Verhaltens im Kontext von ABM und RIL basiert grundlegend auf den Vorge- 
hensbeschreibungen und Ansätzen von Welter und Kim (2018), Mauer et al. (2017), 
Yang und Chandra (2013), Sutton und Barto (2018) und Abdou et al. (2012) 


4.1 Beschreibung des Problemraums 


Wie in Abschnitt 2.3.1 dargestellt, miissen Algorithmen, die ein Lernproblem mit der 
dort beschriebenen Struktur lösen sollen, mit einer konkreten Aufgabe konfrontiert 
werden (Mitchell, 1997). Zur Modellierung und Untersuchung des Lernverhaltens 
eines effektuativen Agenten ist analog die Konstruktion einer Entscheidungsauf- 
gabe im entrepreneurialen Kontext notwendig. Sarasvathy (2009) beschreibt zur 
Veranschaulichung effektuativer Logik eine Entscheidungssituation im Rahmen des 
Produktentwicklungsprozesses eines Entrepreneurs, welche sie mit „The anatomy 
of the initial commit“ (Sarasvathy, 2009, S. 102 f.) betitelt. 

In diesem Entscheidungsproblem offeriert ein Entrepreneur einem potentiellen 
Kunden eine bestimmte Menge eines Produkts mit einer speziellen Produkteigen- 
schaft zu einem initialen Preis. In der Entscheidungssituation wird die Annahme 
getroffen, dass der Kunde das Produkt unter Umständen kaufen würde, wenn die 
spezielle Produkteigenschaft eine andere Ausprägung hätte (beispielsweise: Das 
Produkt soll die Farbe blau statt grün haben.). Der Entrepreneur steht nun vor der 
Entscheidung, eine bestimmte Höhe von Kosten für die Anpassung des Produkts in 
Kauf zu nehmen. 

Sarasvathy (2009) definiert daraufhin drei Kriterien, die die Entscheidung beein- 
flussen: 


e Der Entrepreneur ist oder ist nicht im Besitz der Mittel zur Umsetzung der 
Produktanpassung. 

e Die Vermutung des Entrepreneurs, ob der Kunde das Produkt kaufen wird oder 
nicht, wenn die Produktanpassung vorgenommen wurde. 

e Es existiert ein weiterer Kunde, der bereit ist, das Produkt ohne Anpassung zu 
kaufen und einen höheren Preis pro Einheit zu bezahlen als ursprünglich vom 
Entrepreneur gefordert oder ein solcher Kunde existiert nicht. 


Um für sich festzulegen, ob der ursprüngliche Kunde das angepasste Produkt kau- 
fen wird (echter Kunde) oder nicht (Nicht-Kunde), benötigt der Entrepreneur einen 
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Entscheidungsmechanismus. Dieser Mechanismus ist für zwei Arten von Fehlern 
anfällig, die auch im Kontext der klassischen Statistik Anwendung finden (Neyman 
& Pearson, 1933): 


e Der Entrepreneur klassifiziert einen Kunden als Nicht-Kunden, obwohl dieser 
bereit gewesen wäre das Produkt nach Produktanpassung zu kaufen (Typ-I- 
Fehler). 

e Der Entrepreneur klassifiziert einen Kunden als echten Kunden, obwohl dieser 
in Wirklichkeit ein Nicht-Kunde ist (Typ-II-Fehler). 


Zur Lösung des beschriebenen Problems nach effektuativem Vorgehen ist der Entre- 
preneur bestrebt, Typ-I-Fehler zu reduzieren, wenngleich damit Kosten für das Auf- 
treten von Typ-Il-Fehlern einhergehen. Weiterhin wird ein effektuativ handelnder 
Entrepreneur dem Kunden den Vorschlag unterbreiten, dass dieser die Kosten für 
die Produktanpassung übernimmt und dafür im Gegenzug einen geringeren Gesamt- 
preis nach der Produktanpassung zahlen muss, wodurch sich gegenüber dem initia- 
len Preis ein Kostenvorteil für den Kunden ergibt. 

Das geschilderte Szenario dient als Grundlage für die Formulierung des ABM 
unter Einbeziehung des Lernverhaltens durch RIL. 


4.2 Modellierung des effektuativ handelnden Agenten 


Im Gegensatz zu Mauer et al. (2017) und Welter und Kim (2018) zielt die Entwick- 
lung des vorliegenden Modells nicht vordergründig auf den Vergleich der Leis- 
tungsfähigkeit von Effectuation und Causation ab, welcher die varianztheoretische 
Untersuchung der Logiken in den Mittelpunkt stellt. Vielmehr soll der Forderung 
von Gupta et al. (2016) Rechnung getragen werden, den prozesstheoretischen Hin- 
tergrund von Effectuation verstärkt in die Betrachtung einzubeziehen und entspre- 
chend zu modellieren. 

Um das in der Arbeit vorgestellte ABM, welches auf Methoden des RIL basiert, 
nutzbar zu machen, ist es notwendig, einen Aktionsraum zu definieren, der effektua- 
tives Handeln beinhaltet. Weiterhin ist die Bestimmung einer Lernfunktion maßgeb- 
lich für die Steuerung des Lernverhaltens des Agenten. Darauf aufbauend wird mit 
der Wahl einer geeigneten Lernstrategie sichergestellt, dass Effectuation performant 
und realitätsnah erlernt werden kann. 

In den Abschnitten 4.2.1 und 4.2.2 werden diese Aspekte näher diskutiert. 
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4.2.1 Bestimmung der Verhaltensregeln 


Die Modellierung des Aktionsraums dient der Bestimmung des Verhaltens des 
Agenten innerhalb der definierten Umgebung. Der Aktionsraum A, als eines der 
vier Elemente des 4-Tupels eines MDP, beinhaltet alle möglichen Aktionen, die 
ein Agent grundsätzlich im formulierten Problem ausführen kann. Die ausführba- 
ren Aktionen können weiter eingeschränkt werden, indem in einem bestimmten 
Zustand s € S nur ausgewählte Aktionen ausgeführt werden können. Dies ist dann 
der Fall, wenn in definierten Zuständen nur einzelne Aktionen sinnvoll sind. 

Beispielsweise könnte ein Aktionsraum, wie in Abschnitt 2.3.1 erläutert, 
mit A = {Produkt anpassen, Produkt nicht verändern, neues 
Produkt entwickeln} definiert sein. Befindet sich ein Agent in einem 
Zustand, in dem er einen Mittelbestand, der mit hoch gekennzeichnet ist, beob- 
achtet, kann es für diesen ausschließlich sinnvoll sein, das bestehende Geschäfts- 
modell inklusive der dazugehörigen Produkte auszunutzen, anstatt mit der Ent- 
wicklung eines neuen Produktes in einem unsicheren Markt zu starten. Folglich 
ergibt sich die Aktionsmenge A(hoch) = {Produkt anpassen, Produkt 
nicht verändern}. 

Die Bestimmung effektuativer Handlungsoptionen ergibt sich aus der von Saras- 
vathy (2009) beschriebenen Entscheidungssituation. Im erläuterten Szenario wird 
ausgehend von einer formulierten Problemstellung ein entrepreneuriales Lösungs- 
vorgehen geschildert, das der Effectuation-Logik folgt: „It may either classify C as 
a non-customer (F) [...] or it might classify C as [a real customer] (T) [...].“ (Saras- 
vathy, 2009, S. 103). Dieses Vorgehen bildet die Grundlage für die Konkretisierung 
des Aktionsraums. Es lassen sich zwei Aktionen aus der Aussage filtrieren: 


e a0: classify C as customer und 
e al: classify C as non-customer. 


Der Aktionsraum wird daher mit den diskreten Elementen A = {a0, a1} definiert. 
Diese Aktionen kann der Agent in jedem Zustand s € S anwenden. Es gilt A(s) = 
AYVs € S. Im vorliegenden Fall ist der Aktionsraum folglich nicht von s € A 
abhängig. 


4.2.2 Bestimmung der Lernstrategie 


Zur Entwicklung einer allgemeingültigen Policy x, die effektuatives Entscheiden 
ermöglicht, ist die Auswahl einer geeigneten Lernstrategie erforderlich. In Abschnitt 
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2.3.2 wurden einige Lernverfahren aufgezählt bzw. genauer erläutert. Um einen 
adäquaten Lernalgorithmus zu identifizieren, besteht die Notwendigkeit, Bedin- 
gungen für die Auswahl zu definieren. Mauer et al. (2017), Welter und Kim (2018) 
und Eberz (2018) nutzen zur Modellierung der Simulationsumgebung das Konzept 
der knightschen Ungewissheit (Knight, 1921). Mauer et al. (2017) erweitern den 
Modellraum um die Aspekte Informationsisotropie und Ziel-Ambiguität. Zusam- 
men bilden die genannten Elemente den von Sarasvathy (2009, S. 70) beschriebenen 
entrepreneurialen Problemraum. 
Folglich sollte die gewählte Lernstrategie 


e knightsche Ungewissheit, 
Informationsisotropie und 
e Ziel-Ambiguität 


handhaben können. 

Wie in Abschnitt 2.3.2 geschildert, können RIL-Lösungsmethoden in Model- 
Free- und Model-Based-Verfahren eingeteilt werden. Bei Model-Free-Methoden 
lernt der Agent durch Interaktion mit der Umgebung, ohne die Wahrscheinlich- 
keiten von Zustandsänderungen zu kennen (Bertsekas & Tsitsiklis, 1995). Bei 
knightscher Ungewissheit sind weder die möglichen einzutretenden Ereignisse 
(Zustände) noch deren Eintrittswahrscheinlichkeiten (Transitionswahrscheinlich- 
keiten) bekannt (Knight, 1921). 

Zur Lösung des RIL-Problems kommen daher nur Model-Free-Lernalgorith- 
men in Frage. Anders als bei Mauer et al. (2017), Welter und Kim (2018) und 
Eberz (2018) besteht keine Notwendigkeit, zusätzliche Konzepte zur Modellierung 
von knightscher Ungewissheit — wie beispielsweise Umgebungsturbulenzen — zu 
verwenden. Das von Watkins & Dayan (1992) formulierte Q-Learning-Prinzip ist 
dem Bereich der Model-Free-Methoden zuzuordnen (Sutton & Barto, 2018, S. 131) 
und kann mit 


461,1) gin, ar) + a Fir +y mm ois, ai ois AD 


formuliert werden. Gleichung (4.1) macht deutlich, dass der Agent lediglich durch 
die Interaktion mit seiner Umgebung lernt, welche Aktion in welchem Zustand seine 
Gesamtbelohnung langfristig maximiert. Die optimale Action-Value-Funktion qx 
wird hierbei direkt approximiert. 

Die Formulierung aus (4.1) stellt eine Update-Funktion dar, bei der q(s, a) in 
jedem Zeitschritt anhand der zur Verfiigung stehenden Informationen mit dem 
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Lernparameter a € [0, 1] aktualisiert wird. Diese Informationen sind der unmit- 
telbar nach einem Zeitschritt erhaltene Reward r;+1, der bereits bekannte g-Wert 
q (St, at) und zum Zeitschritt t + 1 beobachtbare Wert q (s;+1, a). Die Action-Value- 
Funktion hat unmittelbaren Einfluss auf die Policy m des Agenten. Der Agent wird 
nach Beobachtung des Zustands die Aktion auswählen, für die q (s, a) maximal ist. 

Diese Modellierung erlaubt die Konzeptualisierung der Informationsisotropie 
(Kalinic et al., 2012). Einem Entrepreneur stehen in der Realität zum Zeitpunkt der 
Entscheidung eine Fülle von Informationen zur Verfügung, von denen nicht klar 
ist, welche für die zu fällende Entscheidung relevant sind. Wird dieses Problem auf 
das Modell übertragen, wird der effektuative Agent daher zu Beginn seiner Unter- 
nehmung zunächst ein exploratives Verhalten an den Tag legen und Aktionen zu 
einem bestimmten Grad zufällig wählen, da er nicht sicher sein kann, welche Infor- 
mationen des jeweiligen Zustandes für ein optimales Verhalten notwendig sind. Mit 
zunehmender Lernerfahrung wird der Agent immer häufiger Aktionen wählen, für 
die q (s, a) maximal ist. In RIL wird dieses Vorgehen als Exploration-Exploitation- 
Tradeoff bezeichnet (Still & Precup, 2012). 

Der Parameter e € [0, 1] dient der Steuerung des Tradeoffs während des Lernvor- 
gangs und legt fest, mit welcher Wahrscheinlichkeit der Agent exploratives Verhal- 
ten an den Tag legt. Zu Beginn wird e = 1 gesetzt, wodurch der Agent zunächst die 
Aktion a zufällig aus dem Aktionsraum A wählt. Nach jeder durchgeführten Aktion 
wird e um einen festgelegten Anteil &gecay anhand folgender Vorschrift verringert: 


Et = Et—-1 ` Edecay- 


Dadurch steigt die Wahrscheinlichkeit mit jedem Zeitschritt, dass der Agent die 
Aktion a in Zustand s wählt, fiir die g(s, a) maximal ist. Zudem wird eine untere 
Grenze Emin als Hyperparameter festgelegt, die bei Erreichen der Grenze in jedem 
Zeitschritt ermöglicht, dass der Agent mit einer geringen Wahrscheinlichkeit explo- 
ratives Verhalten an den Tag legt. 

Des Weiteren sind die Bestandteile des entrepreneurialen Problemraums, Ziel- 
Ambiguität (Gabrielsson & Gabrielsson, 2013) und knightsche Ungewissheit (Town- 
send et al., 2018), inhärente Eigenschaften des Q-Learning Prinzips. Ein effektuativ 
handelnder Agent bezieht sich zu jedem Zeitpunkt auf den beobachteten Zustand 
sowie die davon ausgehend möglichen Aktionen. Aus Sicht des Agenten ist es nicht 
notwendig konkrete Ziele zu definieren. Sie ergeben sich aus der Vereinbarung 
(Ausführung der Aktion) mit den Kunden und resultieren in neuen Zuständen, die 
wiederum die Produktvorstellungen des Entrepreneurs und des Kunden im jewei- 
ligen Zeitschritt beinhalten. Die Produktvorstellungen des effektuativen Agenten 
sind nicht fix und können anhand der verwendeten Lernstrategie angepasst werden. 
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Das Konzept der knightschen Ungewissheit, wie es in Abschnitt 2.2 diskutiert 
wurde, wird im vorliegenden Modell ebenfalls konkret umgesetzt. Dies wird ermög- 
licht, indem der Agent keinen Zugang zur Umgebungsdynamik hat. Dadurch ist er 
nicht in der Lage, direkt vorauszusagen, mit welcher Transitionswahrscheinlich- 
keit er einen bestimmten Zustand erreicht respektive welchen Zustand er überhaupt 
erreicht. Der Agent lernt lediglich durch Interaktion mit seiner Umgebung und baut 
anhand von Erfahrung sein Wissen über die Dynamiken des Modells auf. Dieses 
Vorgehen erweitert die bisher von Eberz (2018), Mauer etal. (2017) und Welter und 
Kim (2018) vorgestellten Modellierungsansätze und macht knightsche Ungewiss- 
heit zu einem direkten Bestandteil der Umgebung. 

Das effektuative Lernproblem wird zudem als nicht-episodische Aufgabe model- 
liert. Dies erfordert einen Wert y < 1 für den Diskontierungsfaktor zu wählen. 
Dieser Faktor ermöglicht die Festlegung, inwieweit künftige Belohnungen in die 
Berechnung der Action-Value-Funktion einbezogen werden. In Effectuation spielen 
mögliche Gewinne der Unternehmung in der Zukunft, die eine Vorhersage erfordern, 
eine untergeordnete Rolle (Sarasvathy, 2001). Daher wird der Diskontierungsfaktor 
mit einem vergleichsweise kleinen Wert initialisiert, so dass y = 0.2 während des 
Lernprozesses angenommen wird. 


4.3 Modellierung der Umgebung 


Die Modellierung der Umgebung ist durch den Zustandsraum S sowie den Transiti- 
onswahrscheinlichkeiten p eines MDP bestimmt. Im vorliegenden Fall werden zur 
Formulierung der Umgebung die Erkenntnisse von Mauer et al. (2017), Welter und 
Kim (2018) und das Szenario aus Abschnitt 4.1 einbezogen. Die Beschreibung der 
Umgebung hat, neben der Formulierung der Belohnungsfunktion r, Einfluss auf das 
Verhalten des lernenden effektuativen Agenten. Die in den Abschnitten 4.3.1 und 
4.3.3 erläuterte Modellierung der Umgebung stellt eine Annäherung an eine real- 
weltliche Entscheidungssituation eines effektuativ agierenden Entrepreneurs dar. 


4.3.1 Bestimmung des Zustandsraums 
Die Zustände s € S beschreiben, in welcher konkreten Ausprägung des Umfeldes 


sich der lernende Agent befindet. Zustände selbst bestehen aus Realisierungen einer 
definierten Menge von Merkmalen, die für die Lösung eines MDP von Relevanz 
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Tabelle 4.1 Merkmale eines Zustands 


Symbol | Beschreibung 

E, Produktvektor des Agenten zum Zeitpunkt t 

Ci Produktvektor des Kunden zum Zeitpunkt t 

Classı-ı | Klassifizierung zum Zeitpunkt t, ob der Kunde zum Zeitpunkt t — 1 ein echter 
Kunde oder Nicht-Kunde ist 

Cost; Kosten fiir die Anderung des Produktvektors von E; —> C; 

I; Potentielle Investition des Kunden zum Zeitpunkt t, sofern der Agent die 
Änderung des Produktvektors vornimmt 


sind.! Die Merkmale eines Zustandes des Zustandsraumes S wird für das vorlie- 
gende Modell fürt € {0,..., T} mit T als finalem Zeitpunkt in Tabelle 4.1 definiert. 

Die Modellierung der Produktvektoren der Agenten E und der Kunden C orien- 
tieren sich an den Vorschlägen von Mauer et al. (2017) und Welter und Kim (2018) 
zur Repräsentation von Produkten respektive Entscheidungsketten. In der vorliegen- 
den Untersuchung werden die von Welter und Kim (2018) verwendeten Entschei- 
dungskonfigurationen als konkrete Produktentscheidungen interpretiert, indem sie 
zum einen die gleiche mathematische Struktur wie die von Mauer et al. (2017) ver- 
wendeten Produktvektoren aufweisen und diese Interpretation zum anderen keinen 
Einfluss auf die Dynamik des zu entwickelnden Modells hat. 

Die Produktvektoren im Fallbeispiel besitzen die Länge N = 10, wobei N 
die Anzahl der möglichen Produkteigenschaften eines Produkts darstellt und diese 
grundsätzlich verallgemeinerbar ist. Jede Produktvektorkomponente kann zwei ver- 
schiedene Ausprägungen annehmen, die unabhängig voneinander entweder 0 oder 
1 sein können. Die binäre Repräsentation von Produktvektorkomponenten deckt 
sich mit dem Vorgehen von Mauer et al. (2017) und Welter und Kim (2018) sowie 
der von Sarasvathy (2009) beschriebenen Entscheidungssituation, in der es heißt, 
dass „C responds as follows: ‚I would gladly buy [the product] if only it were blue 
instead of green‘ .“ (Sarasvathy, 2009, S. 102). Im Gegensatz zu Mauer et al. (2017) 
und Welter und Kim (2018) wird ein Produktvektor E nicht als inhärente Eigen- 
schaft des Agenten modelliert, sondern als Teil eines beobachtbaren Zustandes. Dies 


! Manche Autoren unterscheiden zwischen der reinen Beobachtung eines Agenten und dem 
tatsächlichen Zustand eines Problems (Azizzadenesheli et al., 2016; Kimura et al., 1997). Im 
Allgemeinen hat ein Agent keine Möglichkeit alle Aspekte eines Zustands zu erfassen und 
kann daher nur einen Teil seiner Umgebung beobachten. Für die vorliegende Betrachtung ist 
eine Unterscheidung der beiden Konzepte aufgrund des Umfangs des Zustandsraums nicht 
von Bedeutung. 
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ermöglicht eine weitere Annäherung an das realweltliche Phänomen. Durch die 
Anzahl der Produktvektorkomponenten N und der Anzahl an möglichen Ausprä- 
gungen der Komponenten ergeben sich 2" mögliche Produkte. Unter der Voraus- 
setzung, dass N = 10 existieren demzufolge 1024 Produktvarianten. 

Ein Kunde kann ein echter Kunde oder Nicht-Kunde sein. Das binäre Merkmal 
Class kann demzufolge die zwei Werte 0 und 1 annehmen. Darüber hinaus ist das 
Klassifizierungsmerkmal, neben den definierten Aktionen aus dem Aktionsraum, 
grundlegend zur Bestimmung der Transitionswahrscheinlichkeiten, welche eben- 
falls in Abschnitt 4.3.3 diskutiert werden. Weiterhin ist der effektuative Agent in 
der Lage, das Investitionsverhalten / eines Kunden zu beobachten. Dabei ist grund- 
sätzlich J > 0. Unter welchen Voraussetzungen ein Kunde bereit ist in die Produkt- 
entwicklung des Agenten zu investieren, wird in Abschnitt 4.3.3 näher erläutert. 

Wie im von Sarasvathy (2009, S. 102 f.) beschriebenen Szenario können für einen 
effektuativen Agenten Kosten für die Produktanpassung anfallen. Diese werden im 
Modell durch das Merkmal Cost symbolisiert und können Werte von Cost > 0 
annehmen. Die Bedingungen, die für das Auftreten von Kosten für den Agenten 
gelten, werden ebenfalls in Abschnitt 4.3.3 erläutert. 

Die Menge aller möglichen Zustände im Zustandsraum definiert sich durch die 
Menge aller Kombinationen der Ausprägungen von C, E und Class. Dabei wird 
jeder möglichen Ausprägungskombination von C und E ein Paar von Cost und 
I zugeordnet. Um die Vergleichbarkeit mit den bereits bekannten Modellen von 
Mauer et al. (2017) und Welter und Kim (2018) zuzulassen, erweitern die Kosten 
und Investitionen den Zustandsraum nicht. 


4.3.2 Bestimmung der Belohnungsfunktion 


Die Belohnungsfunktion r eines MDP dient der Verhaltenssteuerung eines Agen- 
ten und bestimmt maßgeblich den Lernvorgang. Sie beschreibt inhaltlich, welche 
Belohnung ein Agent erhält, wenn er in einem bestimmten Zustand eine ausgewählte 
Aktion ausführt und in den nächsten Zustand gelangt. Formal lässt sich dies durch 
r(s’, a, s) ausdrücken (siehe Abschnitt 2.3.1). 

Zur Modellierung einer Belohnungsfunktion, die effektuatives Verhalten des 
Agenten belohnt, ist herauszustellen, welche Aspekte im Sinne von Effectuation 
belohnenswert sind. Für das vorliegende Modell wurden drei Aspekte identifiziert, 
die Einfluss auf eine effektuative Belohnungsfunktion r haben. Die Bestandteile 
werden mit r! bezeichnet. Zudem soll gelten 0 <r <1. 

Der erste Bestandteil zur Beeinflussung des Verhaltens des Agenten im Sinne 
eines effektuativen Vorgehens lässt sich durch die Übertragung der zur Verfügung 
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stehenden Mittel M des Agenten in eine Belohnungsfunktion realisieren. Konkret 
repräsentiert M, das aktuell vorhandene finanzielle Budget des Agenten, welches 
ihm die Anpassung des Produktes E ermöglicht. Durch Einbeziehung der Mittel 
M in die Modellierung werden die von Mauer et al. (2017) und Welter und Kim 
(2018) definierten Problemräume erweitert und der von Sarasvathy (2001), Saras- 
vathy (2003), Wiltbank et al. (2006) und Zhang und Van Burg (2019) beschriebenen 
means, als Entscheidungsgrundlage im effektuativen Prozess, Rechnung getragen. 
Im von KfW Research (2017) publizierten Gründungsreport wurde herausgestellt, 
dass Existenzgründer im Jahr 2016 mit einem mittleren Eigenkapitaleinsatz von 
7.500 € eine Unternehmung begonnen haben. Die dem Agenten zu Beginn des 
Lernprozesses zur Verfügung stehenden Mittel Mo werden daher im Fallbeispiel mit 
dem Wert 7500 initialisiert. Die Mittel des Agenten zu einem beliebigen Zeitpunkt 
t > 0 beziehen die Kosten für eine Produktanpassung sowie das Investitionsver- 
halten eines Kunden in die Berechnung ein. Welchen Berechnungsvorschriften die 
Mittel unterliegen, wird in Abschnitt 4.3.3 dargestellt. Um die effektuative Verwen- 
dung der Mittel, wie sie unter anderem von Peng et al. (2020), Brettel et al. (2012), 
Sarasvathy (2009) und Karami et al. (2019) diskutiert wird, zu modellieren, ist die 
Bewertung der Veränderung des Mittelbestandes innerhalb eines Zeitschritts einzu- 
beziehen, die mit M,+ı — M, definiert ist. Für den Belohnungsfunktionsbestand- 
teil gilt, dass mit jeder Erhöhung des Mittelzuwachses ein geringerer Anstieg der 
Belohnung einhergeht. Dieser Modellierungsansatz deckt sich mit den Annahmen 
von Sarasvathy (2001), wonach effektuativ agierende Entrepreneure im Sinne des 
Affordable-Loss-Prinzips weniger Wert darauf legen, künftige Einnahmen respek- 
tive ihren Mittelbestand zu erhöhen, sondern vielmehr bestrebt sind, ihren aktuellen 
Mittelbestand so ressourcenschonend wie möglich einzusetzen. Eine Funktion, die 
diese Eigenschaften erfüllt, kann wie folgt modelliert werden: 


m 


i r m zU 
r (m) = A e"+em (4.2) 
0 sonst. 


Dabei stellt m die Mittelveränderung im Verhältnis zum Anfangsbestand der Mittel 
als Bezugsgröße dar (in der Folge als Means Variation Ratio bezeichnet) und lässt 


sich mit 
M11 — Mr 


Mo (4.3) 


m; = 1 + 

berechnen. 
Abbildung 4.1 zeigt den Zusammenhang zwischen dem Verhältnis von Means 
Variation Ratio m und Belohnungsbestandteil r!. Es wird deutlich, dass der Agent 
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Abb. 4.1 Zusammenhang zwischen dem Verhältnis von Means Variation Ratio m und Beloh- 
nungsbestandteil r! 


nicht bereits bei m = 1 keine Belohnung mehr erhält. Vielmehr kann der Agent 
das Affordable-Loss-Prinzip anwenden und seine aktuell zur Verfügung stehenden 
Mittel zum Voranbringen der Unternehmung aufbrauchen. Er wird erst dann keine 
Belohnung mehr erhalten (r! = 0), wenn die Kosten für eine Produktanpassung 
der Höhe der Mittel zu Beginn der Unternehmung entsprechen und er einen Typ-I- 
Fehler begeht. 

Ein weiterer die Belohnungsfunktion beeinflussender Aspekt ergibt sich aus dem 
von Sarasvathy vorgestellten Entscheidungsszenario, welches ein typisches effek- 
tuatives Verhaltensmerkmal herausstellt: 


„This final solution to the problem is the strongly effectual one consisting any mecha- 
nism that reduces Type I errors at the cost of incurring Type II errors. In other words, 
the effectual commitment always favors the error of letting possible customers go 
as opposed to letting non-customers drive the decision process.“ (Sarasvathy, 2009, 
S. 103) 


Demnach nimmt ein effektuativ handelnder Entrepreneur in Kauf, Typ-II-Fehler 
(Agent schätzt Kunden als echten Kunden ein, obwohl sich dieser in Wirklichkeit 
als Nicht-Kunde herausstellt und entsprechend das angepasste Produkt nicht kaufen 
wird.) zu begehen, wenn er damit erreicht, Typ-I-Fehler (Agent schätzt Kunden als 
Nicht-Kunden ein, obwohl sich dieser in Wirklichkeit als echter Kunde herausstellt 
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Tabelle 4.2 Entscheidungstabelle 


Wirklichkeit 
Class1 
Typ-I-Fehler 


Korrekte Einschatzung 


ClassO 
...a0 | Korrekte Einschätzung 
Typ-I-Fehler 


Einschätzung mit 


und entsprechend das angepasste Produkt gekauft hätte.) zu vermeiden. Zur Veran- 
schaulichung der Zusammenhänge zwischen der Klassifizierung des Kunden durch 
den Agenten und des tatsächlichen Verhaltens des Kunden dient die Entscheidungs- 
tabelle 4.2. Die Merkmalsausprägungen ClassO und Class1 repräsentieren hierbei 
folgendes: 


e Class0: Der Kunde ist ein echter Kunde und 
e Classl: Der Kunde ist ein Nicht-Kunde. 


Neben dem Auftreten der Fehler vom Typ I und II kann der Agent den Kunden auch 
korrekt einschätzen, indem er 


e den Kunden mit der Aktion a0 als echten Kunden einschätzt und Close) eintritt 
oder 
e den Kunden mit der Aktion al als Nicht-Kunden einschätzt und Class1 eintritt. 


Aus denin Tabelle 4.2 vorgestellten Entscheidungsresultaten und der von Sarasvathy 
(2009) beschriebenen bevorzugten effektuativen Verhaltensweise ergibt sich ein 
Aspekt zur Bestimmung der Belohnungsfunktion. 

Die vier möglichen Entscheidungsergebnisse lassen sich für das Fallbeispiel in 
die in Tabelle 4.3 dargestellten Belohnungsparameter überführen und initialisieren. 
Für das Einschätzen eines Kunden als echten Kunden, der in Wirklichkeit ein Nicht- 
Kunde ist (Typ-I-Fehler) bzw. das Einschätzen eines Kunden als Nicht-Kunden, der 
in Wahrheit ein echter Kunde ist (Typ-Il-Fehler), erhält der Agent keine Belohnung 
(r2(Class0, al) = r?(Classl, a0) = 0). Für das korrekte Einschätzen des Kunden 
erhält der Agent eine Belohnung von 1 (r2(Class0, a0)) bzw. 0.5 (r?(Classl, al)). 
Unter der Annahme, dass die Wahrscheinlichkeiten dafür, dass ein Kunde in Wirk- 
lichkeit ein echter Kunde beziehungsweise Nicht-Kunde ist, gleich sind, wird ein 
Agent bei Wahl der Aktion a0 im Mittel eine höhere Belohnung erwarten, als wenn 
er sich für die Aktion al entscheidet. Folglich nimmt er langfristig eher in Kauf, 
Typ-I-Fehler zu begehen. 
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Tabelle 4.3 Mögliche Werte des Belohnungsfunktionsbestandteils r? 


r? Class0 Class1 
a0 1 (Korrekte Einschätzung) 0 (Typ-Il-Fehler) 
al 0 (Typ-I-Fehler) 0.5 (Korrekte Einschatzung) 


Ein weiterer Aspekt zur Steuerung effektuativen Verhaltens mittels einer Beloh- 
nungsfunktion ist die Einbeziehung der Leistungsfahigkeit eines Produktvektors, 
wie sie von Welter und Kim (2018) vorgeschlagen wurde. Die Leistungsfähig- 
keit eines vom Entrepreneur entwickelten Produktes dient im Modell als Maß zur 
Bestimmung, zu welchem Grad der Product-Market-Fit erreicht wurde. Formal lässt 
sich der Product-Market-Fit als r?(E) mit r? e [0, 1] ausdrücken. Die Berechnung 
von r’(E) folgt der Vorschrift, die sich aus Gleichung (3.6) in Abschnitt 3.1.2 
ergibt. Zum Zeitpunkt r beschreibt der Wert r° (Ep) folglich, wie gut das vom effek- 
tuativ handelnden Entrepreneur angepasste Produkt der Marktnachfrage entspricht. 
Ein vergleichsweise guter Product-Market-Fit korrespondiert mit vergleichsweise 
hohen Werten r’(E), ein schlechter Product-Market-Fit mit vergleichsweise nied- 
rigen Werten r’(E). 

Zur Bestimmung der endgültigen Belohnungsfunktion, die das effektuative Ver- 
halten des Agenten beeinflusst, werden die beschriebenen Teilaspekte einer Beloh- 
nung in eine Konvexkombination überführt und jeweils mit einem Gewichtungsko- 
effizienten versehen. Daraus ergibt sich die Belohnungsfunktion 


ar! (my) + œr” (Class, a) + w3r? (E;41) 


3 
Zei 
i=l 


Ft+1 = (4.4) 


für ©ı > 0 mit r; € [0, 1] und r > 0. Die in Gleichung (4.4) vorgestellte Beloh- 
nungsfunktion wird in Abbildung 4.2 veranschaulicht. Die Abbildung zeigt die 
Belohnungsfunktionen r; für variierendes Means Variation Ratio m und Product- 
Market-Fit r?(E,) bei fixierter Belohnung für das Einschätzen des Kunden durch 
den Agenten mit r?(Class0, a0) = 1 und unterschiedlichen Gewichtungsfaktoren 
w3. Der Gewichtungsfaktor w3 wurde mit den Werten 1 und 4 initialisiert, um die 
damit verbundene Änderung der Belohnungsfunktion r; zu verdeutlichen. Demnach 
kann ein Agent grundsätzlich größere Belohnungen erhalten, wenn die Gewichtung 
w3 = 4 gesetzt wird. Bei Fixierung von m ist ein stärker Anstieg von r; mit stei- 
gendem r3(£;) im Vergleich zu o = 1 zu beobachten. 
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Abb. 4.2 Darstellung der Belohnungsfunktion aus Gleichung (4.4) bei variierendem m und 
r? (E,) sowie fixiertem r?(Class, a) 


Camacho et al. (2019) folgend müssen Belohnungsfunktionen unter anderem die 
Markov-Eigenschaft erfüllen und Zuständen bzw. Zustands-Aktionspaaren skalare 
Belohnungswerte zuordnen. Die in Gleichung (4.4) dargestellte Belohnungsfunk- 
tion erfüllt diese Bedingungen. Die Teilbelohnung, welche sich aus Gleichung (4.2) 
ergibt, bezieht zur Berechnung von m; Investitionswerte und Kosten aus maximal 
einem vorhergehenden Zeitpunkt t — 1 ein. Die Teilbelohnungen r?(Class, a); und 
r>(E,) stehen in Zusammenhang mit einem Zustands-Aktionspaar im Zeitschritt 
t — 1 zu t, wodurch die Markov-Eigenschaft ebenfalls nicht verletzt wird. Die 
Belohnung r; ergibt nach der in Gleichung (4.4) definierten Rechenvorschrift einen 
skalaren Wert. Der entsprechende Quellcode zum Aufbau des Zustandsraums und 
der Bildung des NK-Modells zur Bestimmung des Produkt-Market-Fits kann in 
Anhang C.2 im elektronischen Zusatzmaterial nachvollzogen werden. 


4.3.3 Bestimmung der Transitionswahrscheinlichkeiten 


Die Bestimmung der Transitionswahrscheinlichkeiten p ist Bestandteil der Model- 
lierung der Umgebung. Die Transitionswahrscheinlichkeiten geben Auskunft dar- 
über, mit welcher Wahrscheinlichkeit ein Agent nach Ausführung einer Aktion von 
einem Zustand in den nächsten Zustand kommt. Im Modellansatz sind diese Wahr- 
scheinlichkeiten dem Agenten aus den in Abschnitt 4.2.2 erläuterten Gründen nicht 
bekannt. Dadurch kann der Agent lediglich durch Interaktion mit der Umgebung 
die Genauigkeit der Schätzung des Erwartungswertes einer Action-Value-Funktion, 
wie sie ebenfalls in Abschnitt 4.2.2 beschrieben ist, über die Zeit verbessern. 
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Tabelle 4.4 Bedingte Wahrscheinlichkeiten 


P(a|Class) Class0 Class1 
a0 1-9 H 
al yg 1- x 


Tabelle 4.2 bildet die Grundlage zur Bestimmung der Transitionswahrschein- 
lichkeiten und orientiert sich in ihrer Darstellungsform an Entscheidungstabellen 
im Kontext von Hypothesentests. Diese dienen traditionell der Ermittlung statisti- 
scher Fehler (Neyman & Pearson, 1933). Formal kann Tabelle 4.2 auch mit Hilfe 
bedingter Wahrscheinlichkeiten ausgedrückt werden (Wooldridge, 2013, S. 779). 
In Tabelle 4.4 werden die bedingten Wahrscheinlichkeiten definiert. 

Die bedingte Wahrscheinlichkeit P(a0|Class0) korrespondiert hierbei mit der 
linken oberen Zelle in Tabelle 4.2 (Korrekte Einschätzung), P(a0|Class1) mit der 
rechten oberen Zelle (Typ-II-Fehler), P(a1|ClassO) mit der linken unteren Zelle 
(Typ-I-Fehler) und P(a1|Class1) mit der rechten unteren Zelle (Korrekte Einschät- 
zung). 

Zur Bestimmung der Wahrscheinlichkeiten, dass ein Kunde ein echter Kunde 
(ClassO) bzw. Nicht-Kunde (Class1) ist, unter der Voraussetzung, dass ein Kunde als 
echter Kunde (Aktion a0) bzw. Nicht-Kunde (Aktion al) eingeschätzt wird, erfolgt 
die Anwendung des Satzes von Bayes, der in Abschnitt 2.1 diskutiert wird. Hier- 
für ist es zusätzlich notwendig, die totale Wahrscheinlichkeit für das Eintreten des 
Ereignisses, dass ein Kunde ein echter Kunde bzw. Nicht-Kunde ist, zu modellieren. 
Die Wahrscheinlichkeit für das Eintreten des Ereignisses, dass ein Kunde ein echter 
Kunde ist, wird entsprechend mit P (Class0) = y definiert. Für das Eintreten des 
Ereignisses, dass ein Kunde ein Nicht-Kunde ist, ergibt sich die Gegenwahrschein- 
lichkeit mit P(Class1) = 1 — y. Für die Zustandsänderungen können damit die 
folgenden Eintrittswahrscheinlichkeiten berechnet werden: 


d-o 


P(Class0\a0) = (4.5) 
zl deit — ein 

P(Class1|a0) = ZU = Ww) (4.6) 
d-o) +x- y) 

P(ClassO\a1) = er (4.7) 
or + l-DU-%) 

P(Class\|al) = UM (4.8) 


ey +d—x)d—-w) 
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Dem Vorgehen von Welter und Kim (2018) folgend, wird im vorliegenden Modell 
ein Agent bei einer Zustandsänderung potentiell nur die Zustände erreichen, bei 
denen der Produktvektor eines Kunden in maximal einer Komponente von dem des 
Entrepreneurs abweicht. Führt der Agent die Aktion a0 zum Zeitpunkt t aus, über- 
nimmt er für den Produktvektor E+; den Produktvektor C;, so dass gilt Ei = Cı. 
Klassifiziert der Agent einen Kunden mit der Aktion al, verändert der Agent seinen 
bisherigen Produktvektor nicht und es ergibt sich E,+1 Ex. Schätzt der Agent 
einen Kunden demnach als echten Kunden ein, ist er bereit die Produktvorstellung 
des Kunden umzusetzen. Klassifiziert der Agent einen Kunden als Nicht-Kunden, 
wird er von einer Produktanpassung Abstand nehmen und belässt das Produkt im 
ursprünglichen Zustand. 

Bisher beziehen sich die gemeinsam auftretenden Ereignisse nur auf die aus- 
zuführende Aktion und die tatsächliche Klassifizierung des Kunden. Da bei jeder 
Zustandsänderung grundsätzlich jedoch unterschiedliche Produktvektoren bei den 
Kunden auftreten können, müssen die bedingten Wahrscheinlichkeiten auf die 
Anzahl der möglichen zu beobachtenden Zustände aufgeteilt werden. Im vorlie- 
genden Modell werden die bedingten Wahrscheinlichkeiten über alle Zustände mit 
dem vom Agenten beobachtbaren Produktvektoren der Kunden nach Ausführung 
einer Aktion gleichverteilt. Es ergibt sich die Gewichtung der bedingten Wahr- 
scheinlichkeiten mit x 

Die Bestimmung der Transitionswahrscheinlichkeiten erfolgt auf Grundlage 
eines empirischen Wertes, der in der Literatur zu finden ist. Laut dem Center for Ven- 
ture Research (2019) betragt die Investitionsrate von Wagniskapital-Unternehmen 
in der ersten Finanzierungsphase eines Unternehmens 30,7%. Die Investitionsrate 
stellt hierbei das Verhältnis von der tatsächlich getätigten Anzahl an Investitionen 
des Wagniskapital-Unternehmens zur Anzahl der Investitionsmöglichkeiten dar. Im 
Rahmen der Effectuation-Theorie entfällt eine Unterscheidung zwischen Kunden 
und Investor (Sarasvathy, 2009, S. 102-105), da beide grundsätzlich im Sinne des 
Crazy-Quilt-Prinzips Partner der Unternehmung des effektuativen Entrepreneurs 
sein können (Chandler et al., 2011). Die Nutzung der Investitionsrate zur Modellie- 
rung der Wahrscheinlichkeit, ob ein Kunde in Wirklichkeit ein echter Kunde oder 
Nicht-Kunde ist, ist daher zielführend. Entsprechend wird die Wahrscheinlichkeit 
dafür, dass der Kunde, mit dem eine potentielle Zusammenarbeit angestrebt wird, 
ein echter Kunde ist und dieser als echter Kunde klassifiziert wird (P(ClassONa0)), 
mit dem Wert 0.307 initialisiert. Formal lässt sich die Wahrscheinlichkeit P (ClassO) 


durch 
P(ClassON a0) 0.307 


P(a0|Class0) 1-y 


y = P(Class0) = (4.9) 
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berechnen. Die Wahrscheinlichkeiten o und x werden zur Untersuchung des Lern- 
verhaltens des effektuativen Agenten als variabel angenommen. 

Die in (4.5) bis (4.8) formulierten bedingten Wahrscheinlichkeiten basieren auf 
den Ereignissen a0 bzw. al und Class0 bzw. Class1. Für die gemeinsam auftre- 
tenden Ereignisse existieren verschiedene Berechnungsvorschriften der Mittel in 
Zeitschritt £ + 1: 


Oase N a0 Mutz M; — Cost + I; (4.10) 
Class1\ a0: Mutz M; — Cost; (4.11) 
Class0 Nal : M;,ıı = M; (4.12) 
Classi Oal Mutz M; (4.13) 


Schätzt ein Agent einen Kunden als echten Kunden ein, wird der Agent zunächst 
seinen Produktvektor so anpassen, dass gilt Eu = Cr. Klassifiziert der Agent 
einen Kunden als Nicht-Kunden gilt E;,,; = Ex. Der Agent glaubt demzufolge 
nicht, dass der Kunde das angepasste Produkt kaufen wird und nimmt daher von 
einer mit Kosten verbundenen Anpassung des Produktvektors Abstand. Stellt der 
Agent nach Ausführung der Aktion a0 fest, dass der Kunde tatsächlich ein echter 
Kunde (Class0) ist, ergibt sich die Rechenvorschrift der Mittel aus (4.10). Die Mittel 
M;-+ı errechnen sich aus den zum Zeitpunkt t verfügbaren Mitteln M, abzüglich der 
Kosten Cost; für die Produktanpassung E;+1 = C; und zuzüglich der Investition 
I, die ein Kunde bereit ist für die Produktanpassung zu leisten. Dabei wird I; 
gleichverteilt mit Cost; < I; < 1.5 Cost; angenommen. 

Tritt der Fall ein, dass der Agent einen Kunden als echten Kunden einschätzt, 
dieser in Wahrheit jedoch ein Nicht-Kunde ist, hat der Agent die mit Kosten verbun- 
dene Produktanpassung vorgenommen, ohne dass der Kunde bereit ist, das Produkt 
zu kaufen und damit in die Anpassung zu investieren. Gleichung (4.11) verdeutlicht 
die damit einhergehende Berechnung der Mittel M;+1. 

Wird der Agent einen Kunden im Zeitschritt £ als Nicht-Kunden klassifizieren, 
ergeben sich zur Mittelberechnung im Zeitschritt * + 1 die Vorschriften aus den 
Gleichungen (4.12) und (4.13). Unabhängig davon, ob der Agent beobachtet, dass 
der Kunde aus dem vorangegangenen Zeitschritt ein echter Kunde oder Nicht-Kunde 
ist, nimmt der Agent keine Produktanpassung vor. Folglich fallen keine Kosten für 
den Agenten an und er erhält keine Investitionen vom Kunden, wodurch die Mittel 
im Zeitschritt t + 1 dem Mittelbestand M, entsprechen. 

Zur Veranschaulichung der erläuterten Transitionen istin Abbildung 4.3 eine bei- 
spielhafte Zustandsänderung dargestellt. In der Darstellung ist der Anfangszustand 
mit der Start-Produktkonfiguration des Agenten Eg = (010) sowie des Kunden 
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Co = (000) der Länge N = 3 zu finden. Der Agent startet mit den im Zustand 
zu beobachtenden Mitteln Mu = 7500. Die Kosten für die Produktanpassung von 
(010) — (000) betragen 1000. Die mögliche Investitionssumme Jon des Kunden für 
eine Produktanpassung beträgt 1100. 

Der Agent hat die Möglichkeit, den Kunden aus dem initialen Zustand als ech- 
ten Kunden (a0) oder Nicht-Kunden (al) zu klassifizieren. Nach Ausführung einer 
Aktion kann der Agent in einem der in den beiden Tabellen dargestellten möglichen 
Zustände landen. Jede Spalte beschreibt hierbei jeweils einen möglichen Zustand 
im Zeitschritt 1 mit konkreten Ausprägungen, die vom Zustand zum Zeitpunkt 0 
aus erreichbar sind. 


4.4 Standardisierung des Modells 


Um die Möglichkeit zu gewährleisten, das entwickelte Modell entsprechend der 
in Abschnitt 3.1.4 erläuterten Methoden durch weitere Autoren zu verifizieren, 
besteht die Notwendigkeit den Implementierungsprozess zu standardisieren. Brock- 
man et al. (2016) präsentieren in ihrem Rahmenwerk eine Möglichkeit Modelle, 
die auf Methoden des RIL aufbauen, zu vereinheitlichen. Mit Hilfe der OpenAI 
Gym-Schnittstelle können modellierte RIL-Probleme explizit dargestellt und korre- 
spondierende Lösungen verglichen werden. Die Verifikations-Umgebung ist quel- 
loffen verfügbar und in Python implementiert. Im Kern stellt die Bibliothek eine 
Schnittstelle zur Verfügung, um die Umgebung des RIL-Problems standardisiert 
darzustellen. Hierfür ist die Erstellung einer dedizierten Environment-Klasse not- 
wendig, die die Implementierung einiger weniger Attribute und Methoden fordert. 
Zu Vergleichszwecken ist unter anderem die Typen-Deklaration der Elemente des 
Zustandsraumes notwendig. 

Anhand der Charakteristik der einzelnen Merkmale des in Abschnitt 4.3.1 
beschriebenen Zustandsraumes ergibt sich die in Anhang C.1 im elektronischen 
Zusatzmaterial aufgestellte Klassen-Definition zur Implementierung in OpenAl 
Gym. Der modellierte Zustandsraum wird in OpenAI Gym zu Deklarationszwe- 
cken als Python-Dictionary tibergeben. Die Merkmale des Zustandsraumes werden 
als Schliissel-Strings codiert. Den Schliisseln werden Werte zugeordnet. Die Typen 
der Werte werden entsprechend der durch OpenAI Gym vorgegebenen möglichen 
Klassendefinitionen deklariert. In einer OpenAI Gym-Umgebung dienen die Werte 
des Dictionaries als Definition des Wertebereiches der möglichen Ausprägungen 
der Zustandsmerkmale. Der vollständige Aufbau der Umgebung ist in Anhang C.3 
im elektronischen Zusatzmaterial dargestellt. 
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Algorithmus 4 Q-Learning-Algorithmus zur Schätzung von 7 7 Ty 


1: procedure Q- LEARNING(a, y, T) 

2: g(s,a) -OVseS,aeA 

3 Zufällige Wahl von so gemäß einer Gleichverteilung über alle s € S mit Mo 
4:  whiler < T do 

5: a<— arg max q (sr, a) 

6 


Sit = f($1, 41,9, X, Y) > Zustandsübergang als Funktion der ausgeführten 
Aktion und der Transitionswahrscheinlichkeit 
T: q (St, at) — dë, a) kont max d'Lat, a) — q (Sı, ail 
ER t<t+l1 
9: ` end while 


10: end procedure 


Zum Zweck der Transparenz und Nachvollziehbarkeit ist zudem in Algorithmus 4 
das Lernprogramm des sich in der definierten Umgebung bewegenden Agenten in 
Pseudo-Code dargestellt. Dabei wird angenommen, dass der Agent in jedem Zeit- 
schrittein exploitatives Verhalten an den Tag legt. Die konkrete Implementierung des 
Algorithmus in Python unter Beachtung des Explorations-Exploitations-Tradeoffs 
istin Anhang C.4 im elektronischen Zusatzmaterial wiederzufinden. 
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Die Feststellung der Güte von RIL-Algorithmen kann zum einen durch die Beurtei- 
lung der Lerngeschwindigkeit einer Policy oder der Hohe der gesammelten Beloh- 
nungen während des Lernprozesses erfolgen. Dementsprechend können entweder 
der Mittlere Quadratische Fehler von g-Werten aufeinanderfolgender Episoden 
oder die mittlere erhaltene Belohnung pro Episode als Gütemaß verwendet wer- 
den (Greenwald & Hall, 2003, Poole & Mackworth, 2017, Kap. 12.6). 

Der Mittlere Quadratische Fehler (in der Folge MSE, englisch für Mean Squared 
Error) einer Episode errechnet sich aus dem Produkt der Summe der quadrierten 
Differenz aller q (s, a) zum Zeitpunkt ¢ und aller g(s, a) zum Zeitpunkt t — K und 


dem Reziproke des Produktes der Umfänge des Zustands- und Aktionsraums BTA 
wobei K € N die Episodenlänge darstellt. Es ergibt sich 
a6 a) - 41-K ($, 0))”. (5.1) 


SC 


| tos acA 


Die Ermittlung der mittleren erhaltenen Belohnung des Agenten pro Episode ergibt 
sich aus dem Produkt der Summe der durch Anwendung der jeweiligen Strategie 
beobachteten Belohnungen r; zu jean Zeitpunkt j im Zeitraum t — K+1...r 
und dem Reziproke der Episodenlänge £ . Dies kann formal mit 


Ergänzende Information Die elektronische Version dieses Kapitels enthält 
Zusatzmaterial, auf das über folgenden Link zugegriffen werden kann 
https://doi.org/10.1007/978-3-658-39251-2_5. 


© Der/die Autor(en) 2023 117 
M. Sterzel, Effectuation entwickeln, 
https://doi.org/10.1007/978-3-658-39251-2_5 


118 5 Ergebnisse des Lernprozesses 


1 t 
Average Rewards = e Kä rj (5.2) 
j=t-K+1 


ausgedrückt werden. 

Im Rahmen der Untersuchung wird die Episodenlänge K = 100 gesetzt. Folg- 
lich werden pro Episode 100 Zeitschritte durchlaufen. Nach Durchführung von 
Testläufen der Simulation konnte festgestellt werden, dass die Wahl dieser Episo- 
denlänge geeignet für die Darstellung des in Gleichung 5.1 vorgestellten Mittleren 
Quadratischen Fehlers und der in Gleichung 5.2 beschriebenen mittleren Beloh- 
nung ist. Eine Episode stellt in diesem Zusammenhang lediglich einen Zeitraum zu 
Vergleichszwecken dar. Sie endet nicht mit einem absorbierenden Zustand, da das 
in Abschnitt 4.2.2 erläuterte RIL-Problem als fortlaufende Aufgabe modelliert ist. 

Zur Untersuchung der Leistungsfähigkeit des Lernverhaltens des effektuativen 
Agenten werden die in den Abschnitten 5.1 bis 5.4 erläuterten Ergebnisse mit denen 
eines Agenten verglichen, der einer zufälligen Strategie folgt. Bei diesem Verhalten 
wählt der Agent zufällig eine Aktion a, gleichverteilt aus den Werten von A aus. 
Durch Gegenüberstellung der beiden Strategien kann anhand der Gütemaße, die 
sich aus den Vorschriften 5.1 und 5.2 ergeben, überprüft werden, ob effektuatives 
Verhalten des Agenten im modellierten Problemraum sinnvoll ist. 


5.1 Untersuchung verschiedener Lernverhalten bei 
teilweiser Manipulation der Belohnungsfunktion 


Die in Abschnitt 4.3.2 formulierte Belohnungsfunktion dient der Verhaltenssteue- 
rung des Agenten. Sie bewirkt, dass ein Agent für eine effektuative Aktion in einem 
bestimmten Zustand entsprechend honoriert wird. Die in Gleichung (4.4) darge- 
stellte Funktion setzt sich im Wesentlichen aus drei Bestandteilen zusammen, die 
jeweils mit einem Gewichtungsparameter versehen sind. Jeder der Konvexkombi- 
nationsterme misst die Güte verschiedener Aspekte der Entscheidung des Agenten 
im entrepreneurialen Kontext. 


5.1.1 Auswahl der Parameterwerte 
Zur Untersuchung, welche Auswirkungen die Betrachtung bestimmter Teile der 


Belohnungsfunktion auf das Lernverhalten des Agenten hat, werden die Gewich- 
tungsfaktoren w1, @2, w3 in unterschiedlichen Konfigurationen als Parameter ange- 
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setzt. Konkret werden zunächst die Ergebnisse bei Verwendung der Parameterkon- 
figurationen 


ou =lag=1,03;=1 
ou = 0, om = 1,0@3;=1 
wı = 1, w = 0, œw = 1 


a, = l, œa = 1, œz = 0 


analysiert. Mittels der Parameter w; kann gesteuert werden, welche Aspekte effek- 
tuativen Verhaltens Einfluss auf die Lernerfahrung des Agenten nehmen. Die Resul- 
tate werden in Abschnitt 5.1.2 mit denen eines zufällig handelnden Agenten vergli- 
chen. 

Zur Untersuchung des Einflusses der isoliert betrachteten Belohnungsfunktions- 
bestandteile auf die Leistungsfähigkeit eines effektuativ lernenden Agenten werden 
in Abschnitt 5.2 danach die Parameterkonfigurationen 


ou = 1, a = 0, on = 0 
o = 0, om = 1, on = 0 


oi = 0, om = 0, on = 1 


zu Grunde gelegt und die daraus resultierenden Lernergebnisse verglichen. Durch 
die einzelne Betrachtung der jeweiligen Konvexkombinationssummanden kann der 
unmittelbare Einfluss der Belohnungsfunktionsbestandteile auf die Leistungsfähig- 
keit und das Lernverhalten des Agenten bestimmt werden. 

Die Parameter y und x spiegeln die Wahrscheinlichkeiten für die Ereignisse 
wider, dass der Kunde als Nicht-Kunde eingeschatzt wird, unter der Bedingung, 
dass der Kunde ein echter Kunde ist bzw. dass der Kunde als echter Kunde einge- 
schatzt wird, unter der Bedingung, dass der Kunde in Wirklichkeit ein Nicht-Kunde 
ist. Aufgrund des Mangels an weiterfiihrenden Informationen werden zur Unter- 
suchung des Lernverhaltens bei sich ändernder Belohnungsfunktion die bedingten 
Wahrscheinlichkeiten g und x mit dem Wert 0.5 initialisiert. Dieses Vorgehen folgt 
dem Indifferenzprinzip, wonach ohne Vorliegen weiterer Informationen eine dis- 
krete Gleichverteilung der möglichen Ereignisse anzunehmen ist (de Laplace, 1812, 
S.182f.). Die Ereignisse des Ausführens einer bestimmten Aktion und der Klassifi- 
zierung eines Kunden werden damit stochastisch unabhängig. So gilt beispielsweise 
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1— .5 -0.614 
P(Class0|a0) = rev = ferns = 0.614 
x0-W+0—-oyv  05-03864+05-0.614 
5-0.614 
P(Class0|a1) = GG 08 = 0.614, 


gwtd—-xd—-wW)  0.5-0.6144 0.5 - 0.386 


Daraus folgt offenbar 
P(Class0|a0) = P(Class0|al) = P(Class0) = 0.614 


und damit die stochastische Unabhängigkeit. 

Zur Bestimmung der Hyperparameter, die das Explorationsverhalten und die 
Lerngeschwindigkeit steuern, wird zunächst auf Erfahrungswerte, die aus der pro- 
totypischen Umsetzung des Modells stammen, zurückgegriffen. Sie werden für den 
effektuativ agierenden Agenten wie folgt initialisiert: 


e=1 
Emin = 0.005 
Edecay = 0.999 
a = 0.65. 


Die Untersuchung des Lernverhaltens bei Variation ausgewählter Hyperparameter 
erfolgt in Abschnitt 5.4. 


5.1.2 Leistungsvergleich der Lernverhalten bei teilweiser 
Variation der Belohnungsfunktion und Interpretation 
der Ergebnisse 


Anhand der in Abschnitt 5.1.1 erlauterten Parameterkonfiguration erfolgt die Gegen- 
tiberstellung der mittleren pro Episode erhaltenen Belohnungen eines effektuativ 
agierenden und eines zufällig agierenden Agenten über einen Zeitraum von 6000 
Episoden. In Abbildung 5.1 ist dieser Leistungsvergleich illustriert. 

Für die Parameterkonfigurationen o = 0,@2 = 1,@3 = 1 und a, = 
1,@2 = 0,@3 = 1 ist ein Lernverhalten des effektuativ agierenden Agenten in 
Abbildung5.la erkennbar. Im Vergleich zum zufällig handelnden Agenten wer- 
den über die Zeit im Schnitt höhere Belohnungen erzielt. Dabei ist das Lern- 
verhalten für ou 1, @2 0, om 1 am deutlichsten ausgeprägt. Bei der 
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Abb. 5.1 Vergleich des Lernverhaltens des effektuativ und zufallig agierenden Agenten bei 
unterschiedlicher Gewichtung der Konvexkombinationsterme der Belohnungsfunktion 


Parameterkonfiguration w1 1, œ = 0, 3 1 versucht der effektuative Agent 
gleichzeitig seine Mittel so effizient wie möglich einzusetzen sowie die Marktnach- 
frage bestmöglich zu befriedigen und lässt dabei die Verbesserung seiner Fähigkeit, 
einen Kunden korrekt einzuschätzen, außer Acht. Er wird in dieser konkreten Situa- 
tion am erfolgreichsten sein. 

Bei Betrachtung der Ergebnisse bei ou = 1, œ = 1, #3 = 0 wird deutlich, dass 
der effektuativ handelnde Agent im untersuchten Zeitraum im Mittel schlechter 
abschneidet als ein Agent, der eine zufällige Strategie verfolgt. Versucht ein effek- 
tuativer Agent folglich gleichzeitig seinen Mitteleinsatz und seine Fähigkeit Kunden 
korrekt zu klassifizieren zu optimieren, wird dieser langfristig weniger erfolgreich 
sein als ein Agent, der ein zufallsbasiertes Entscheidungsverhalten an den Tag legt. 
Aus Abbildung 5. 1a ist nicht erkennbar, ob die Ergebnisse auch nach 6000 Episoden 
weiterhin einem Abwärtstrend folgen. Abbildung 5.2 illustriert, dass der Erfolg des 
effektuativen Agenten in späteren Episoden im Mittel stabil bleibt. 

Allgemein bleiben für die ersten 15000 Episoden die Ergebnisse des effektuati- 
ven Agenten weiterhin unter denen des zufällig handelnden Agenten. 

Inwiefern Leistungsunterschiede zwischen dem effektuativen und zufällig agie- 
renden Agenten bei der Parameterkonfiguration w1 1, @2 1, om 1 beste- 
hen, lässt sich aus den Abbildungen5.la und 5.1b nicht ohne Weiteres ablesen. 
Zur besseren Veranschaulichung werden die beiden Agententypen daher in Abbil- 
dung5.3 gegenübergestellt. Es ist ersichtlich, dass der effektuativ agierende Agent 
zu Beginn des Lernprozesses zunächst bessere Ergebnisse als der zufällig handelnde 
Agent erreicht. Im weiteren Verlauf nimmt die Leistungsfähigkeit jedoch ab und der 
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Abb. 5.2 Lernverhalten des effektuativ agierenden Agenten bei Parameterkonfiguration 
wı = l, œ = 1, w3 = 0 


Agent, der eine zufällige Strategie verfolgt, erhält im Mittel größere Belohnungen. 
Zurückzuführen ist dieses Verhalten erneut auf den Versuch des Agenten, gleich- 
zeitig den Mitteleinsatz zu optimieren und seine Fähigkeit, einen Kunden korrekt 
einzuschätzen, zu verbessern. 

Grundsätzlich lassen sich bei Agenten, die in einer Umgebung mit den Para- 
meterkonfigurationen ou = l,n = 0,@3 = 1 und o = 0, œ = Lon = 1 
der Belohnungsfunktion agieren, effektuative Lerneffekte nachweisen, da im Mit- 
tel höhere Leistungswerte erzielt werden als bei den korrespondierenden zufällig 
handelnden Agenten. In einer Umgebung, in der bei der Belohnungsfunktion alle 
Summanden der Konvexkombination gleich gewichtet werden 
Lo = 1, œ = 1, w3 = 1) oder die Parameterkonfiguration w; = 1, w2 = 1, on = 0 
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Abb. 5.3 Vergleich des Lernverhaltens des effektuativ und zufallig agierenden Agenten bei 
Parameterkonfiguration ou = 1, œ = 1, @3 = 1 
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gegeben ist, kann kein erfolgreiches effektuatives Lernen beobachtet werden. Der 
gleichzeitige Versuch des Agenten den Mitteleinsatz zu verbessern und seine Klas- 
sifizierungsfähigkeiten zu optimieren, führt dazu, dass langfristig kein effektuati- 
ves Verhalten erlernt wird. Im Fall, dass der vermeintlich effektuative Agent nicht 
marktkonform handelt (on 1, on 1, w3 0), tritt ebenso wenig wie bei 
w 1, w2 1, w3 1 im betrachteten Beobachtungszeitraum ein Lerneffekt 


auf. 

Da der effektuativ handelnde Agent, der versucht, gleichzeitig seinen Mittel- 
einsatz und seine Fähigkeit einen Kunden korrekt einzuschätzen zu optimieren, 
im Vergleich zu einem Agenten, der eine zufällige Strategie verfolgt, schlechter 
abschneidet, werden in den folgenden Untersuchungen die Parameterkonfiguratio- 
nen w1 1, o 1, @3 0 und w1 1, o 1, on 1 nicht weiter berück- 
sichtigt. Für weitere Untersuchungen und Vergleiche stehen folglich die Parame- 
terkonfigurationen @ 0, o 1, o 1 und o 1, on 0, w3 1 zur 
Verfügung, die grundsätzlich effektuatives Verhalten widerspiegeln. Da ein effek- 


tuativer Agent langfristig nur dann erfolgreich sein wird, wenn er es schafft, für das 
entwickelte Produkt Nachfrage zu erzeugen und sich marktkonform zu verhalten, 
findet die Konfiguration o = 1, w2 = 0, om = 1 in den folgenden Betrachtungen 
Berücksichtigung. Diese erzielte auch das beste Lernverhalten. 


5.2 Untersuchung des Lernverhaltens des effektuativen 
Agenten bei isolierter Betrachtung einzelner 
Bestandteile der Belohnungsfunktion 


In Abschnitt 5.1.2 wurde ein Leistungsvergleich zwischen effektuativem und zufälli- 
gem Verhalten entrepreneurialer Agenten angestellt. Dabei wurden Modifikationen 
der Belohnungsfunktion in die Betrachtung einbezogen, um zu überprüfen, ob auch 
bei unterschiedlich betontem effektuativen Verhalten Unterschiede zwischen den 
beiden Agententypen auftreten. Um den konkreten Einfluss der einzelnen Beloh- 
nungsfunktionsbestandteile auf das Verhalten des effektuativen Agenten zu unter- 
suchen, ist es sinnvoll, diese isoliert zu betrachten. 


5.2.1 Auswahl der Parameterwerte 
Zur Bestimmung des Einflusses einzelner Bestandteile der Belohnungsfunktion 


auf das Lernverhalten eines effektuativen Agenten ist es zweckmäßig, nur jeweils 
einen Koeffizienten der Konvexkombination mit dem Wert 1 zu versehen, wäh- 
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rend die anderen beiden Koeffizienten auf 0 gesetzt werden. Es ergeben sich die in 
Abschnitt 5.1.1 möglichen Parameterkonfigurationen 


oi = 1, œ = 0,03; = 0 
ou =0,@2 = 1,03; = 0 


oi = 0, œ = 0,03 = 1. 


Um den Vergleich zum Verhalten eines Agenten herzustellen, der mehrere Aspekte 
effektuativen Handelns beriicksichtigt, wird die Parameterkonfiguration 


o = Lon = 0, on = 1 


ebenfalls betrachtet. 
Ebenso wie in Abschnitt5.1.1 werden o = x = 0.5 initialisiert und die dort 
definierten Werte der Hyperparameter angewendet. 


5.2.2 Leistungsvergleich der Lernverhalten eines 
effektuativen Agenten bei isolierter Betrachtung der 
Belohnungsfunktionsbestandteile und Interpretation 
der Ergebnisse 


Die in Abschnitt5.2.1 definierten Parameterwerte bilden die Grundlage für die 
Untersuchung des Lernverhaltens eines effektuativen Agenten bei isolierter Betrach- 
tung der Bestandteile der Belohnungsfunktion aus (4.4) über einen Zeitraum 
von 6000 Episoden. In Abbildung5.4a sind die mittleren erreichten Belohnun- 
gen pro Episode bei Betrachtung der Belohnungsfunktion mit der Konfiguration 
o = 1, œ = 0, w3 = 1 eines effektuativen Agenten abgetragen (vgl. hierzu auch 
Abbildung 5.la bei Parameterkonfiguration w1 1, œ = 0, om 1). Zu Beginn 
des Prozesses ist ein Lernverhalten des Agenten zu beobachten, welches sich in den 
steigenden mittleren Belohnungen ausdrückt. Im weiteren Verlauf ist kein tenden- 
zieller Anstieg der Leistungswerte mehr zu verzeichnen. 

Das Lernverhalten bei ausschließlicher Betrachtung der ersten Komponente der 
Belohnungsfunktion (@; = 1, w2 = 0, w3 = 0) zeigt sich in Abbildung 5.4b. Die in 
Gleichung (4.4) formulierte Belohnungsfunktion verkürzt sich auf rn = r! (m,). 
Folglich wird lediglich der vermeintlich geschickte Mitteleinsatz des effektuativen 
Agenten belohnt. In Abbildung 5.4b ist ein Leistungsanstieg zu Beginn des Lern- 
prozesses zu beobachten. Im weiteren Verlauf stabilisiert sich das Verhalten und die 


5.2 Untersuchung des Lernverhaltens des effektuativen Agenten bei isolierter... 125 


0.65 
E 0.60 E 
5 SR 
(6 0.55 EI 
H H 
2 ® 
8 8 
© 0.50 20. 
< < 


0.45 S — 1 = 1, 62 =0,43=1 ` — äi ln D ws =0 
0 2000 4000 6000 0 2000 4000 6000 
Episodes Episodes 
(a) Lernverhalten des effektuativ agie- (b) Lernverhalten des effektuativ agie- 
renden Agenten bei Parameterkonfigu- renden Agenten bei wı = 1, w2 = 
ration wi = 1, w2 = 0, w3 = 1 0, w3 = 0 
0.7 0.8 
— 1 = 0, w = 1, «3 =0 
n 0.6 E 
2 E 0.7 
A A 
ER Ei 
o o 0.6 
Ed ap 
E04 £ 
= S 
< 05 
0.3 — w1 =0, w =0,03=1 
0 2000 4000 6000 0 2000 4000 6000 
Episodes Episodes 
(c) Lernverhalten des effektuativ agie- (d) Lernverhalten des effektuativ agie- 
renden Agenten w; = 0, w2 = 1, w3 = 0 renden Agenten wi = 0, w2 = 0, w3 = 1 


Abb. 5.4 Vergleich des Lernverhaltens des effektuativen Agenten bei isolierter Betrachtung 
der Konvexkombinationsterme der Belohnungsfunktion 


erhaltenen Belohnungen steigen tiber die Zeit nicht mehr an. Im Zeitverlauf nimmt 
die Schwankung der Leistungswerte zwischen zwei Episoden ab. Der Agent wird im 
Umgang mit seinen zur Verfiigung stehenden Mitteln sicherer und wendet folglich 
selbstbewusst das Affordable-Loss-Prinzip an. Das erlernte Verhalten zeigt jedoch 
auch, dass der Agent im Laufe der Zeit einen Kunden vorrangig als Nicht-Kunden 
klassifizieren wird und damit eher bereit ist Typ-I-Fehler zu begehen. Das steht im 
Kontrast zum von Sarasvathy (2009, S. 103) beschriebenen typischen effektuativen 
Verhalten, bei dem Entrepreneure Typ-I-Fehler in Kauf nehmen, um Typ-I-Fehler 
zu vermeiden. Der Agent versucht, sich in der Simulation einer mittleren Belohnung 
von 0.5 anzunähern. Um eine Belohnung vom Wert 0.5 zu erhalten, muss ausgehend 
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von Gleichung (4.3) m; = 1 sein. Dazu muss der Summand MM = 0 werden. 
Das ist dann der Fall, wenn die Rechenvorschriften (4.12) und (4.13) zum Tragen 
kommen, in denen fiir die Mittel M;.; = M; gilt und der Agent die Aktion al wählt 
(Kunde wird als Nicht-Kunde klassifiziert). 

Die Abbildungen5.4c und 5.4d verdeutlichen ein effektuatives Lernverhalten 
des Agenten. Die mittleren erhaltenen Belohnungen steigen zunächst und stabili- 
sieren sich im Laufe der ersten 6000 Episoden. Während die Leistungswerte bei 
ou 0, w2 1, on O einen im Mittel degressiven Verlauf nehmen, ver- 
läuft der Anstieg der Leistungswerte bei o 0, w2 0, on 1 im Mit- 
tel näherungsweise linear. Die Leistungswerte unter der Parameterkonfiguration 
o = 0, om = 0, on = 1 weisen zusätzlich im Zeitverlauf stärkere Schwankungen 
der mittleren erhaltenen Belohnungen auf. Da der Agent unter dieser Konfigura- 
tion die Belohnung r; = r>(E,) erhält, wird ausschließlich das Finden optimaler 
Fitness-Werte belohnt. Wenngleich die erhaltenen Belohnungen im Mittel steigen, 
werden die Abweichungen von diesem Mittel im Zeitverlauf größer. Durch die 


Zunahme der Schwankungen sinkt die Prognosesicherheit des Agenten bezüglich 
der Marktnachfrage. 

Zur Veranschaulichung der erreichten mittleren Belohnungen sind in Abbil- 
dung5.5 die Lernergebnisse bei isolierter Betrachtung der Belohnungsfunktions- 
bestandteile und bei Betrachtung der Parameterkonfiguration o = 1,@2 = 0, 
@3 = | abgetragen. Der alleinige Vergleich der erzielten mittleren Belohnungen der 
unterschiedlichen Parameterkonfigurationen ist aufgrund der verschiedenen Bewer- 
tungskriterien der Belohnungsfunktionsbestandteile nicht sinnvoll. Leistungsunter- 
schiede des Lernens können aus Abbildung 5.5 nicht ohne Weiteres abgelesen wer- 
den. Es ist daher zweckdienlich, zusätzlich die jeweiligen prozentualen Änderungen 
der erhaltenen Belohnungen im Beobachtungszeitraum zu vergleichen. Dadurch 
kann die Effizienz des Lernens des effektuativen Agenten herausgestellt werden. 
Zur Bestimmung der jeweiligen Anstiege wird die Vorschrift 
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Abb. 5.5 Vergleich des Lernverhaltens des effektuativen Agenten bei isolierter Betrachtung 
der Belohnungsfunktionsbestandteile und bei Parameterkonfiguration o = 1, w2 = 0,03 = 
1 


mit n = 1000 und j = 6000 angewendet. Dabei stellt Average Rewards; die 
mittlere erhaltene Belohnung einer Episode dar. Folglich wird die Differenz der 
mittleren erhaltenen Belohnung der letzten 1000 Episoden des Untersuchungszeit- 
raumes und der mittleren erhaltenen Belohnung der ersten 1000 Episoden gebildet 
und ins Verhältnis zur mittleren erhaltenen Belohnung der ersten 1000 Episoden 
gesetzt. 

Es ist zu beobachten, dass der Agent bei der Parameterkonfiguration 
wl 0, w2 0, om 1 die höchste prozentuale Änderung erreicht. Bei Para- 
meterkonfiguration o 0, w2 1, o 0 erzielt der Agent die zweitbesten 
und bei ou 1, œ = 0, on 1 die drittbesten Ergebnisse. Liegt der Fokus des 
Agenten allein auf der Optimierung des Mitteleinsatzes (w; = 1, w2 = 0, w3 = 0), 
ist die Lerneffizienz am geringsten. Diese Beobachtung schwächt das Argument, 
dass Entrepreneure vorranging das Affordable-Loss-Prinzip anwenden sollen. Diese 
Erkenntnis deckt sich mit den Ergebnissen von Deligianni et al. (2015), die 
keine signifikanten Effekte durch Anwendung des genannten Prinzips im Kon- 
text von Produkt-Diversifikationsmaßnahmen auf den Unternehmenserfolg fest- 
stellen konnten. Erst in Verbindung mit der Befriedigung der Marktnachfrage 
Lon 1, on 0, w3 1) durch den effektuativen Agenten wird eine höhere 
Lerneffizienz erzielt und der geschickte Mitteleinsatz führt zu vergleichsweise bes- 
seren Ergebnissen. 
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5.3 Untersuchung verschiedener Lernverhalten bei 
Manipulation der Transitionswahrscheinlichkeiten 


Die Modelldynamik eines RIL-Problems lässt sich mithilfe von Wahrscheinlich- 
keiten von Zustandsübergängen (Transitionswahrscheinlichkeiten) darstellen. Sie 
drücken die Unsicherheit aus, mit der ein Agent konfrontiert ist, wenn dieser eine 
Entscheidung hinsichtlich des weiteren Vorgehens treffen muss. Für ihn ist, aus- 
gehend vom aktuellen Zustand und nach Ausführung einer bestimmten Aktion, 
nicht sicher, ob er in einem von ihm gewünschten nächsten Zustand gelangen wird. 
Im vorliegenden Modell sind die Transitionswahrscheinlichkeiten dem Agenten 
nicht bekannt und nur dem Modellierer zugänglich. Diese Konstruktion erlaubt die 
Durchführung kontrollierter Experimente. In der folgenden Untersuchung werden 
die erreichten Leistungswerte der Agenten bei sich ändernden Wahrscheinlichkeiten 
vorgestellt und diskutiert. 


5.3.1 Auswahl der Parameterwerte 


Die im Modell verwendete Formel (4.9) zur Bestimmung der Transitionswahr- 
scheinlichkeiten beruht auf einem empirischen Wert und wird als unveränderbar 
angenommen. Die Wahrscheinlichkeit für die Ereignisse, dass ein Kunde ein echter 
Kunde ist und auch als echter Kunde klassifiziert wird, wird in der Untersuchung 
als fix festgelegt und auf 0.307 gesetzt. Ein weiterer Teil der zu Grunde liegen- 
den Wahrscheinlichkeiten wird als variabel modelliert. Die mittleren Belohnungen 
der Agenten werden bei diskreten Werten der in den Gleichungen (4.6) und (4.7) 
formulierten Wahrscheinlichkeiten betrachtet. Bei der Untersuchung der Lernver- 
halten der Agenten wird für jeden Verlauf = x gesetzt. Für die untersuchten 
Wahrscheinlichkeiten o und x gilt 


gy, x € {0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.693}. (5.3) 


Um zu vermeiden, dass Transitionswahrscheinlichkeiten außerhalb des Intervalls 
[0, 1] liegen, muss 0 < 9 < 0.693 gewählt werden. Dieser Umstand ergibt sich aus 
der Wahl von P(ClassO N a0) = 0.307 und Anwendung der Rechenvorschrift für 
w aus Gleichung 4.9. 

Zur Bestimmung der Belohnungsfunktion wird die Parameterkonfiguration 
w] 1, o 0, o 1 verwendet, wodurch der erste und dritte Summand 
der Konvexkombination in die Berechnung einbezogen werden. Es werden diesel- 
ben Werte der Hyperparameter für &, Emin, Edecay und o wie in Abschnitt 5.1.1 
verwendet. 
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5.3.2 Leistungsvergleich der Lernverhalten bei Variation der 
Transitionswahrscheinlichkeiten und Interpretation der 
Ergebnisse 


In Abbildung 5.6 sind die mittleren erreichten Belohnungen über die Zeit - in Form 
von Episoden - eines effektuativ agierenden und eines zufällig handelnden Agen- 
ten bei variierenden Transitionswahrscheinlichkeiten dargestellt. Eine Einzelbe- 
trachtung der Ergebnisse bei Variation der Transitionswahrscheinlichkeiten ist in 
Anhang D.1 im elektronischen Zusatzmaterial zu finden. Der effektuative Agent, 
dessen Lernverhalten in Abbildung 3 oa illustriert ist, erreicht für alle untersuch- 
ten Transitionswahrscheinlichkeiten im Laufe des Lernprozesses durchschnittlich 
höhere Leistungswerte als der zufällig agierende Agent, dessen Verhalten in Abbil- 
dung 5.6b abgetragen ist. 
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Abb. 5.6 Vergleich des Lernverhaltens des effektuativ und zufällig agierenden Agenten bei 
Änderung der Transitionswahrscheinlichkeiten 


In Abbildung 5.6a ist ersichtlich, dass bei o = x = 0.7! die im Mittel höchs- 
ten Leistungswerte des effektuativen Agenten erreicht werden. Zurückzuführen ist 
dieses Verhalten auf eine für den Agenten günstige Konstellation der Transitions- 
wahrscheinlichkeiten. Unabhängig davon, welche Aktion der Agent wählt, werden 


! Zur besseren Lesbarkeit der Wahrscheinlichkeiten und x wird in den folgenden Aus- 
führungen und Abbildungen der Wert 0.7 (statt, wie in der Fallunterscheidung (5.3), 0.693) 
dargestellt. Während des Trainings des Agenten wurde mit dem tatsächlichen Wert 0.693 


gerechnet. 
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mit Wahrscheinlichkeit 1 nur die nächsten Zustände erreicht, bei denen das Klas- 
sifizierungsmerkmal des Kunden echter Kunde (Class0) lautet. Dadurch verringert 
sich der Zustandsraum des Agenten, für den er versucht, eine optimale Strategie zu 
erlernen sowie die möglichen Belohnungen für seine Entscheidungen. Der Agent 
trifft ausschließlich Kunden, die bereit sind, tatsächlich in die Unternehmung zu 
investieren, wenn eine Produktanpassung vorgenommen wurde. Dies ermöglicht 
es dem Agenten, seinen Mitteleinsatz effizient zu gestalten und entsprechend leis- 
tungsfähiger zu agieren. 

Zur besseren Nachvollziehbarkeit des trendmäßigen Verhaltens des effektuati- 
ven und zufällig handelnden Agenten bei sich ändernden Transitionswahrschein- 
lichkeiten, ist in Abbildung 5.7a der gleitende Mittelwert” der pro Episode erhal- 
tenen mittleren Belohnungen abgetragen. Wie bereits in Abbildung5.6a ist auch 
in Abbildung 5.7a erkennbar, dass der effektuative Agent in einer Umgebung mit 
gy = x = 0.7 die im Mittel besten Ergebnisse erzielt. Der zufällig handelnde Agent 
erreicht bei g = x = 0 und g = x = 0.7, im Vergleich zu allen anderen Tran- 
sitionswahrscheinlichkeiten, die höchsten Leistungswerte. Zurückzuführen ist dies 
erneut auf eine fiir den Agenten giinstige Konstellation der Transitionswahrschein- 
lichkeiten. In einer Umgebung mit o = x = 0.7 wird der Agent lediglich auf echte 
Kunden treffen. Zur Berechnung der Mittel m, kommen nur die Berechnungsvor- 
schriften (4.10) und (4.12) zum Tragen, wodurch sich m; > 1 ergibt und folglich 
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Abb. 5.7 Betrachtung des Lernverhaltens des effektuativ und zufällig agierenden Agenten 
bei Änderung der Transitionswahrscheinlichkeiten 


2 Als Fenstergröße wurde der Wert 100 gewählt. 
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für r! (m;) 2 0.5 gilt. Für den Fall, dass = x = 0 ist, werden zur Berechnung von 
m, nur die Vorschriften aus (4.10) und (4.13) verwendet und es folgt analog m; > 1 
und r!(m;) > 0.5. In Abbildung 5.7a wird dieses Verhalten ebenfalls deutlich. Der 
effektuative Agent geht zu Beginn des Lernprozesses explorativ vor (€ ist nahe dem 
Wert 1) und wählt seine Aktionen überwiegend zufällig aus. Der Agent erreicht bei 
einer Umgebung, die von g = x = 0 und ọ = x = 0.7 bestimmt wird, ähnliche 
Ergebnisse. 


5.4 Untersuchung des Lernverhaltens des effektuativen 
Agenten bei Manipulation ausgewahlter 
Hyperparameter 


RIL-Probleme, die mit Hilfe von Q-Learning gelöst werden, konvergieren unter mil- 
den Voraussetzungen hin zu einer optimalen Action-Value-Funktion und folglich 
optimalen Strategie des Agenten (Tsitsiklis, 1994). Die optimale Strategie ermög- 
licht es dem Agenten, die im Mittel höchsten Belohnungen innerhalb der Umgebung 
einzusammeln. Durch Variation der Lernrate o kann die Geschwindigkeit, mit der 
die optimale Strategie gefunden wird, beeinflusst werden (Watkins & Dayan, 1992). 


5.4.1 Bestimmung des Parameterraums bei Variation 
ausgewählter Hyperparameter 


Die Untersuchung des Mittleren Quadratischen Fehlers sowie der mittleren erhal- 
tenen Belohnungen geben Aufschluss über die Geschwindigkeit und Stabilität des 
Lernens eines Agenten. Mittels der beiden genannten Gütemaße kann bestimmt 
werden, zu welchem Zeitpunkt eine optimale Strategie annähernd erreicht ist und 
diese bestmöglich ausgenutzt wird. 

Die Betrachtung des Mittleren Quadratischen Fehlers über die Zeit gibt Auf- 
schluss darüber, wann eine optimale Strategie gefunden wurde (Monekosso & 
Remagnino, 2004). Die Strategie ist optimal, wenn der Mittlere Quadratische Fehler 
ausreichend klein ist. Ab welchem Zeitpunkt die optimale Strategie bestmöglich aus- 
genutzt wird, kann nicht nur durch diesen Wert bestimmt werden. Zusätzlich muss 
dafür das Stabilitätsverhalten der mittleren Belohnungen über die Zeit betrachtet 
werden (Poole & Mackworth, 2017, Kap. 12.6). Werden die pro Episode erhaltenen 
Belohnungen über eine ausreichend lange Zeit im Mittel nicht größer oder kleiner, 
wird die bis dahin erlernte Strategie bestmöglich ausgenutzt. 
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Die Geschwindigkeit des Findens einer optimalen Strategie kann durch Ande- 
rung der Lernrate o beeinflusst werden. Zur Diskussion des Einflusses des Hyper- 
parameters werden folgende Werte untersucht: 


a € {0.2, 0.4, 0.6, 0.8, 1}. 


Der Wert o = 0 wird in der Untersuchung nicht betrachtet. Wird dieser Wert in 
den Q-Learning-Algorithmus aus (4.1) eingesetzt, wird keine Aktualisierung der 
initialen g-Werte über die Zeit ausgeführt. Entsprechend kann kein Lernverhalten 
des Agenten beobachtet werden und die q-Werte ändern sich nicht. Die Aktualisie- 
rungsfunktion aus (4.1) lässt sich in diesem Fall zu 


q(St, at) = q (st, at) + 0- [rt + y max q(Sı+1, a) — q (st, ail 


q (St, at) — q (St, ar) 


zusammenfassen. Der Agent folgt über dem Beobachtungszeitraum einer zufälligen 
Strategie, da die in den Episoden erhaltenen Belohnungen keinen Einfluss auf die 
zu aktualisierenden q-Werte haben. Für alles € 5 und a € A ist zu Beginn und am 
Ende der Simulation q (s, a) = 0. 

Der Diskontierungsfaktor y wird bei der Untersuchung der Lerngeschwindigkeit 
nicht variiert. Aufgrund der in Abschnitt 4.2.2 erläuterten Annahmen ist y ein fixer 
Bestandteil des Modells und nicht als Optimierungsparameter zu verwenden. 

Der Hyperparameter ¢ dient der Steuerung des Explorations-Exploitations- 
Verhaltens des Agenten. Ein Agent wählt mit Wahrscheinlichkeit 1 — ¢ die bestmög- 
liche Aktion der bisher erlernten Strategie. Um eine Balance zwischen explorativem 
und exploitativem Verhalten zu erreichen, wird € durch Multiplikation mit &gecay 
in jeder Episode im Laufe des Lernprozesses verringert. Zu Beginn des Lernens 
wählt der Agent überwiegend zufällige Aktionen, um zu verhindern, in einem loka- 
len Minimum zu verweilen. Gegen Ende der Lernphase wird der Agent überwie- 
gend Aktionen anhand der bis dahin ermittelten Strategie wählen und das bis dahin 
erlernte Wissen über den Zustandsraum und dessen Belohnungssystem anwenden. 
Um dem Agenten dennoch zu ermöglichen seine Strategie zu optimieren, wählt 
der Agent mit einer gewissen Rest-Wahrscheinlichkeit ¢,,;, eine zufällige Aktion 
aus. Dieses Vorgehen wird als Exponentially decaying €-greedy exploration strategy 
bezeichnet (Morales, 2020, Kap. 9.1.5). 

Um zu ermitteln, über welchen Zeitraum es für den Agenten sinnvoll ist sich 
explorativ zu verhalten und damit eine partiell nicht-effektuative Strategie zu verfol- 
gen, werden die Werte für &gecay varliert. Aufgrund der Größe des Zustandsraumes 
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werden vergleichsweise große Werte für egecay gewählt. Dabei wird der Einfluss 
der folgenden Werte auf das Lernverhalten untersucht: 


Edecay € {0.99, 0.995, 0.999, 0.9995}. 


Für die Untersuchung der Hyperparameter wird erneut o = x = 0.5 gesetzt und 
die Belohnungsfunktion aus Gleichung 4.4 mit einer Parameterkonfiguration von 
o = 1, w = 0, w3 = 1 vorausgesetzt. 


5.4.2 Vergleich der Lerngeschwindigkeiten bei Variation der 
Lernrate und Interpretation der Ergebnisse 


Zur Feststellung der Auswirkungen der Lernraten auf die mittleren erhaltenen 
Belohnungen des Agenten und das Konvergenzverhalten wird der betrachtete Lern- 
zeitraum auf 15000 Episoden verlängert. Dadurch wird ermöglicht, dass sich das 
Lernverhalten des effektuativen Agenten auch bei kleinen Lernraten mit der Zeit 
stabilisiert. 

Die Abbildungen 5.8a und 5.8b zeigen die mittleren erhaltenen Belohnungen des 
Agenten bei variierenden Lernraten. Abbildung 5.8a illustriert die mittleren Beloh- 
nungen über alle Episoden, während in Abbildung5.8b das gleitende Mittel der 
mittleren Belohnungen mit einer Breite von 100 aufeinanderfolgenden Episoden 
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Abb. 5.8 Betrachtung der mittleren erhaltenen Belohnungen des effektuativ agierenden 
Agenten bei Anderung der Lernrate 
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abgetragen ist. In Anhang D.2 im elektronischen Zusatzmaterial sind die mittleren 
erhaltenen Belohnungen bei unterschiedlichen Lernraten über die Gesamtheit der 
Episoden illustriert. Es wird deutlich, dass bei den Lernraten a = 0.6, a = 0.8 
bzw. a = | zum Ende des Lernprozesses ein ähnliches Niveau der mittleren erhal- 
tenen Belohnungen erreicht wird. Ist = 0.4 bleiben im Beobachtungszeitraum die 
Ergebnisse unterhalb dieses Niveaus. Bei einer Lernrate von o = 0.2 sind die Leis- 
tungsunterschiede zu den anderen untersuchten Lernraten noch ausgeprägter. Ist ein 
effektuativer Agent demnach kaum gewillt durch neu hinzugewonnene Erfahrungen 
sein Verhalten zu ändern (o = 0.2), wird er zunächst vergleichsweise schlechtere 
Leistungswerte erzielen. Er wird nicht das für Effectuation typische Lemonade 
Prinzip anwenden (Read & Sarasvathy, 2005). Dieses Prinzip beschreibt ,,[...] the 
entrepreneur’s willingness to change when confronted with new information, means 
or surprises.“ (Read, Song et al., 2009, S.574). 

Anhand der in Abbildung5.8 dargestellten Lernverhalten kann nicht abschlie- 
Bend festgestellt werden, welche Lernrate im Kontext effektuativen Verhaltens zu 
bestmöglichen Ergebnissen fiir den Agenten führen. Zusätzlich ist es notwendig, 
das Konvergenzverhalten bei Variation der Lernraten zu betrachten, da dieses Aus- 
kunft darüber gibt, wie schnell ein Agent eine näherungsweise optimale Strategie 
findet. 

In Abbildung 5.9a ist der Mittlere Quadratische Fehler der zu untersuchenden 
Lernraten über 15000 Episoden zu sehen. Es zeigt sich, dass in allen Fällen mit der 
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Abb. 5.9 Betrachtung der mittleren erhaltenen Belohnungen und des Mittleren Quadrati- 
schen Fehlers des effektuativ agierenden Agenten bei Änderung der Lernrate 
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Zeit eine Stabilisierung der Mittleren Quadratischen Fehler eintritt und die Werte 
gegen Null konvergieren. Nimmt der Agent kaum noch Änderungen seiner Strategie 
vor — der Mittlere Quadratische Fehler ist demnach nahe Null — hat der Agent eine 
annähernd optimale Strategie zur Interaktion in der Umgebung gefunden. Es wird 
deutlich, dass mit sinkenden Werten der Lernrate o zu Beginn des Lernprozesses 
auch geringere Mittlere Quadratische Fehler zu verzeichnen sind und die Lern- 
geschwindigkeit (erkennbar an der Anzahl der Episoden nach denen der Mittlere 
Quadratische Fehler nahe Null ist) steigt. 

Da auch die Lerngeschwindigkeit nicht einzig zur Bestimmung der in diesem 
Kontext bestmöglichen Lernrate ausreicht, ist eine gemeinsame Betrachtung der 
mittleren erhaltenen Belohnungen und des Mittleren Quadratischen Fehlers sinn- 
voll. Abbildung 5.9b verdeutlicht den Zusammenhang zwischen der gemeinsamen 
Entwicklung der beiden Gütekriterien. Es ist ersichtlich, dass grundsätzlich mit 
sinkendem Mittleren Quadratischen Fehler die mittleren Belohnungen steigen. Ein 
Kompromiss zwischen hoher Lerngeschwindigkeit und schnellem Stabilisierungs- 
verhalten der mittleren Belohnungen wird bei einer Lernrate von œ = 0.6 erreicht. 
In diesem Zusammenhang ist es für den effektuativen Agenten folglich sinnvoll 
zu einem überwiegenden Teil neue Erfahrungen in sein Entscheidungsverhalten 
einfließen zu lassen, ohne bestehendes Wissen vollständig zu verwerfen. 


5.4.3 Vergleich der Lerngeschwindigkeiten bei Variation des 
Explorationsabnahmefaktors und Interpretation der 
Ergebnisse 


Um untersuchen zu können, inwieweit die Geschwindigkeit, mit der ein Agent 
von einem explorativen zu einem exploitativen Verhalten wechselt, Einfluss auf 
das Lernverhalten hat, werden Werte für &gecay aus der in Abschnitt 5.4.1 definier- 
ten Menge zu Grunde gelegt. Des Weiteren wird der in Abschnitt 5.4.2 diskutierte 
Hyperparameterwert œ = 0.6 für den Lernprozess vorausgesetzt. Wiederum wird 
der Betrachtungszeitraum auf 15000 Episoden festgelegt. 

In Abbildung 5.10a ist der gleitende Mittelwert der mittleren erhaltenen Beloh- 
nungen bei unterschiedlichen Werten von &gecay abgetragen. Dabei wird deutlich, 
dass, bei einem vergleichsweise langsamen Wechsel des Agenten von einem explo- 
rativem zu einem exploitativen Verhalten (&gecay = 0.999 und &gecay = 0.9995), im 
Untersuchungszeitraum grundsätzlich höhere Leistungswerte erzielt werden. Ver- 
hält sich der Agent demnach länger explorativ und experimentiert in der Umgebung, 
kann dieser schneller höhere Leistungswerte erzielen. Die positiven Auswirkun- 
gen des Experimentier-Verhaltens des Agenten, der zunächst die Dynamiken der 
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Abb. 5.10 Betrachtung der mittleren erhaltenen Belohnungen und der Mittleren Quadrati- 
schen Fehler des effektuativ agierenden Agenten bei Änderung des Explorationsabnahme- 
faktors 


Umgebung nicht kennt, decken sich mit den Erkenntnissen von Chandler et al. 
(2011), die auf eine positive Korrelation von Ungewissheit und Experimentierfreu- 
digkeit hindeuten. Allerdings zeigt sich auch, dass der Agent bei &gecay = 0.9995 
länger benötigt, um ein ähnliches Leistungsniveau wie der Agent bei égecay = 
0.9995 zu erreichen. Ab einem gewissen Punkt wirkt sich die Experimentierfreu- 
digkeit demnach bereits wieder negativ auf einen zügigen Erfolg aus. 

Abbildung 5.10b zeigt den Zusammenhang zwischen Mittlerem Quadratischen 
Fehler und den mittleren erhaltenen Belohnungen bei unterschiedlichen Werten für 
Edecay. Es zeigt sich, dass bei &gecay = 0.999 und &gecay = 0.9995 der Mittlere 
Quadratische Fehler im Betrachtungszeitraum tendenziell geringer wird. Für Werte 
von &decay = 0.99 und égecay = 0.995 ist dieses Verhalten nicht erkennbar. Es zeigt 
sich, dass bei &gecay = 0.99 und Egecay = 0.995 auch bereits für vergleichsweise 
kleine mittlere Belohnungen der Mittlere Quadratische Fehler klein ist. 

Trotz der vergleichsweise geringen Mittleren Quadratischen Fehler des Agenten 
bei e = 0.99 und e = 0.995 bei geringen Werten der mittleren erhaltenen Beloh- 
nungen, die auf den geringen Lerneffekt des Agenten zurückzuführen sind, werden 
bei e = 0.999 die höchsten mittleren erhaltenen Belohnungen erzielt. Im Rahmen 
der untersuchten Werte für &gecay ist es für einen effektuativ handelnden Agen- 
ten folglich günstig sich länger explorativ zu verhalten und sein Gründungsumfeld 
durch experimentelles Verhalten ausgiebiger zu untersuchen. 
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Zusammenfassung und Ausblick 6 


Ziel der Arbeit war es, Effectuation um einen prozessorientierten Beitrag zu erwei- 
tern und effektuatives Lernen aufbauend auf bestehenden Modellen in die Betrach- 
tung einzubeziehen. Im Folgenden sollen die gewonnenen Erkenntnisse in zusam- 
mengefasster Form dargestellt werden. Die daraus abgeleiteten Grenzen der Unter- 
suchung geben Aufschluss über den weiteren Forschungsbedarf. Darauf aufbauend 
werden Implikationen für Theorie und Praxis herausgestellt und Vorschläge für 
künftige Untersuchungen erarbeitet. 


6.1 Zusammenfassung 


Um den aktuellen Stand der Effectuation-Forschung zu überblicken, wurde zunächst 
eine strukturierte Literaturanalyse durchgeführt. Dabei wurde anhand der von 
Wolfswinkel et al. (2013) vorgeschlagenen Rahmenbedingungen Literatur ausge- 
wählt und diskutiert. Durch Eingrenzung der zu analysierenden Literatur und den 
daraus abgeleiteten Forschungsbedarf konnte die für die Untersuchung relevante 
Fragestellung identifiziert werden. 

Um darüber hinaus ein grundlegendes Verständnis für effektuatives Schließen zu 
schaffen, wurden entscheidungstheoretische Aspekte im Kontext von Effectuation 
durchleuchtet und kritisch diskutiert. Hierbei wurde der durch Sarasvathy (2009) 
eingeführte Vergleich zwischen effektuativer Inferenz und bayesschem Schließen 
weitreichender als bisher untersucht. Diesbezüglich wurden bisherige Ungenau- 
igkeiten bei der Verwendung bayesianischer Konzepte und Zusammenhänge auf- 
gearbeitet und in eine mathematisch notierte Definition überführt. Dadurch ist 
es künftig möglich, Effectuation präziser von bestehenden Entscheidungstheorien 
abzugrenzen. 
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Des Weiteren wurden Verfahren des maschinellen Lernens vorgestellt, die grund- 
sätzlich die Möglichkeit bieten, das Konzept der Ungewissheit abzubilden und auto- 
nomes Entscheiden von Agenten zu modellieren. Yang und Chandra (2013) fordert 
in diesem Zusammenhang, dass agentenbasierte Modellierung unter Verwendung 
Künstlicher Intelligenz in die Entrepreneurship-Forschung Einzug hält. Aufgrund 
des von Gupta et al. (2016) beschriebenen Bedarfs, Effectuation aus prozessthe- 
reotischer Sicht in den Fokus zu stellen, wurde die Funktionsweise von RIL - als 
prozessbasiertes Lernsystem — ausführlich diskutiert. 

Außerdem sollten bestehende Modellierungsansätze, die die algorithmische 
Interpretation von Effectuation erlauben, evaluiert werden. Die Gegenüberstel- 
lung und Diskussion bestehender Modelle dienen der Zusammenfassung geeig- 
neter Modellelemente und Erforschung bisher vernachlässigter Modellierungsa- 
spekte, die Effectuation technisch-mathematisch abbildbar machen. Daher wurden 
die Modelle von Mauer et al. (2017), Welter und Kim (2018) und Eberz (2018) 
deskriptiv dargestellt und bisher lediglich verbal beschriebene Elemente und Wir- 
kungsweisen der Modelle in eine mathematische Form übertragen. 

Durch die explizite Darstellung der Modelle konnte eine Gegenüberstellung 
der verwendeten Eingangsgrößen, Ausgangsgrößen und Methodiken vorgenom- 
men werden. Zudem wurden die Modelle von Mauer et al. (2017) und Welter und 
Kim (2018) in replizierter Form implementiert und Simulationsergebnisse vergli- 
chen. Dabei konnte die grundsätzliche Argumentation, unter welchen Bedingun- 
gen Effectuation Causation überlegen ist, nachvollzogen werden. Abweichungen 
zwischen den ursprünglichen und den replizierten Simulationsergebnissen ergeben 
sich jedoch unter Verwendung spezifischer Modellparameter, die zu unterschiedli- 
chen Leistungswerten führen. Grundlegende Aussagen zur Leistungsfähigkeit von 
Effectuation und Causation in verschiedenen Umgebungssituationen blieben trotz 
der Unterschiede erhalten. 

Die aus der Gegenüberstellung und Nachmodellierung gewonnenen Erkennt- 
nisse bilden die Grundlage für ein aggregiertes Modell, das bestehende Ansätze 
um Aspekte effektuativen Lernens ergänzt. Damit soll das von Sarasvathy (2001) 
eingeführte Theoriengerüst methodisch erweitert und ein Beitrag zur Effectuation- 
Forschung geleistet werden. Durch die Bereitstellung des RIL-Effectuation-Modells, 
welches effektuatives Lernen explizit und interpretierbar formuliert, wird die Grund- 
lage für entscheidungsunterstützende Systeme im Gründungsumfeld geschaffen. 
Das in Kapitel4 entwickelte Modell erlaubt es einem effektuativen Agenten, eine 
entrepreneuriale Problemstellung zu bearbeiten. 

Durch die Verwendung von RIL- und agentenbasierter Methoden wurde die 
Operationalisierung des entrepreneurialen Problemraums (knightsche Ungewiss- 
heit, Ziel-Ambiguität, Informationsisotropie) realisiert. Die Modellierung einer 
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Belohnungsfunktion, die effektuatives Verhalten motiviert, erlaubt es einem Agen- 
ten Effectuation zu erlernen und steht damit im Kontrast zu den fixierten Regelsätzen 
von Mauer et al. (2017) und Welter und Kim (2018), die die Entscheidungen eines 
Agenten von der Umgebungsdynamik entkoppeln. Zudem wurde mit der Formulie- 
rung des Problemraums als MDP die Möglichkeit geschaffen, die Umgebung mittels 
Zuständen zu modellieren. Diese stellen Beobachtungvektoren dar, die die Wahr- 
nehmung eines Agenten widerspiegeln. Die in einem Zustand erfassten Merkmale 
sind grundsätzlich erweiterbar. 

Die Ergebnisse der mit dem entwickelten Modell durchgeführten Untersuchung 
zeigen, dass Effectuation durch einen autonom agierenden Agenten erlernbar ist. 
Anhand der modellierten Umgebung wurden geeignete Parameter identifiziert, die 
effektuatives Lernen begünstigen. Die Bestimmung der auf Grundlage der Güte- 
make Average Rewards und MSE bestmöglichen Hyperparameter o und &gecay 
geben Aufschluss darüber, zu welchem Grad neue Erfahrungen und exploratives 
Verhalten für den effektuativen Lernfortschritt förderlich sind. Es konnte weiter- 
hin nachgewiesen werden, dass das Affordable-Loss-Prinzip unter den gegebenen 
Bedingungen nur unter bestimmten Voraussetzungen einen positiven Effekt auf 
die Leistungs- und Lernfähigkeit des effektuativen Agenten hat. Eine gleichzei- 
tige Belohnung des effektuativen Mitteleinsatzes sowie der korrekten Einschätzung 
eines Kunden führen zu keinem positiven Lerneffekt des Agenten. 

Die zu Beginn der Arbeit gestellte Forschungsfrage konnte durch die Gegenüber- 
stellung bestehender effektuativer Simulationsmodelle, Aggregation der Modellie- 
rungsansätze und Erweiterung um Komponenten des Lernens beantwortet werden. 
Durch die Formalisierung von Effectuation wurde die Grundlage geschaffen, die 
Theorie in ihrer Wirkungsweise transparent und reproduzierbar zu machen. Die 
Synthese bisheriger Modellierungsansätze in Verbindung mit der Ergänzung um 
Elemente effektuativen Lernens hat eine Standardisierung der Effectuation-Theorie 
ermöglicht. Der Einsatz Künstlicher Intelligenz, in Form von RIL, um entrepre- 
neuriales Verhalten abzubilden, stellt einen neuen methodischen Ansatz zur Model- 
lierung effektuativen Handelns dar. Einem effektuativ agierenden Agenten wird 
es möglich, autonom in einer Gründungssituation Entscheidungen zu treffen und 
unternehmerisches Handeln zu erlernen. 

Aus den Ergebnissen der Untersuchung lässt sich für die unternehmerische Praxis 
ableiten, dass Entrepreneure, die ihren Fokus auf den geschickten Mitteleinsatz set- 
zen und dabei gleichzeitig das Feedback von Konsumenten hinsichtlich gewünschter 
Funktionalitäten eines Produktes abfragen, langfristig eher erfolgreich sein werden. 
Versuchen Entrepreneure sich gleichzeitig auf den Mitteleinsatz und die Verbesse- 
rung ihrer Fähigkeit einen Kunden korrekt einzuschätzen zu konzentrieren, kann 
das zu einer verminderten Leistungsfähigkeit der Unternehmung führen. Zudem ist 
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der Erfolg für effektuativ handelnde Entrepreneure abhängig von der Dynamik der 
Griindungssituation und der Verbindlichkeit ihrer potentiellen Partner bzw. Kunden. 
Treffen Entrepreneure die Entscheidung, ein Produkt aufgrund von Kundenfeedback 
anzupassen, werden sie umso erfolgreicher sein, je eher Partner sich kooperativ ver- 
halten und bereit sind in die weitere Produktentwicklung zu investieren. Es lässt 
sich außerdem feststellen, dass Entrepreneure, die ihr Verhalten aufgrund neu hin- 
zugewonnener Informationen anpassen, ihre Unternehmung schneller zum Erfolg 
führen können und so dem von Read und Sarasvathy (2005) formulierten Lemonade 
Prinzip folgen. Die positiven Auswirkungen von hoher Experimentierfreudigkeit in 
einem besonders ungewissen Gründungsumfeld, wie bereits Chandler et al. (2011) 
konstatierte, konnten ebenfalls bestätigt werden. Exploratives Verhalten führt dem- 
nach schneller zum Erfolg einer Unternehmung im Sinne der Effectuation-Theorie. 


6.2 Limitationen 


ABM beruhen aus Gründen der Komplexitätsreduktion auf Annahmen (Fioretti, 
2012). Dadurch kann das realweltliche Phänomen nur unter Einschränkungen 
erfasst werden (Bonabeau, 2002). Das im Modell verwendete Entscheidungspro- 
blem basiert auf der von Sarasvathy (2009) vorgeschlagenen Gründungssituation the 
initial commitment, welches ausgewählte Aspekte der Herausforderungen repräsen- 
tiert, mit denen ein Entrepreneur zu Beginn einer Unternehmung konfrontiert wird. 
Die damit einhergehende Abstraktion eines Teils des Gründungsprozesses vernach- 
lässigt operationalisierbare Bestandteile effektuativen Entscheidens (Chandler etal., 
2011). Dadurch kann eine entrepreneuriale Entscheidungssituation nicht vollum- 
fänglich abgebildet werden. Das die Entscheidung beeinflussende Kriterium, dass 
möglicherweise ein weiterer Kunde existiert, der bereit ist, das Produkt ohne Anpas- 
sung zu kaufen und einen höheren Preis pro Einheit zu bezahlen als ursprünglich vom 
Entrepreneur gefordert, wurde im Modell nicht explizit als Bestandteil der Beloh- 
nungsfunktion berücksichtigt. Wenngleich die Modellierung des Zustandsraumes es 
grundsätzlich ermöglicht, dieses Verhalten abzubilden, geht mit der Einbeziehung 
des Kriteriums eine weitreichende Anpassung der Belohnungsfunktion einher, die 
einer weiteren Untersuchung bedarf. 

Um verschiedene Entwicklungen von Gründungsprozessen zu simulieren, wurde 
die Umgebungsdynamik variiert. Dies ermöglichte die Untersuchung der Leistungs- 
fähigkeit des Agenten bei unterschiedlichem Verhalten der Kunden. Die Einbe- 
ziehung empirischer Werte zur Modellierung der Transitionswahrscheinlichkeiten 
wurde mit Hilfe der vom Center for Venture Research (2019) veröffentlichten Inves- 
titionsrate von Wagniskapitalgebern umgesetzt. Aufgrund des Mangels an weiteren 
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empirischen Werten wurde bei der Untersuchung das Indifferenzprinzip angewen- 
det, welches für den Einsatz bei fehlenden Informationen geeignet ist. Es ist davon 
auszugehen, dass realweltliche Zustandsübergange in Gründungssituationen dem 
Indifferenzprinzip nicht uneingeschränkt folgen. 

Weiterhin umfassen die Zustände des Zustandsraums Merkmale, die auf Basis 
der von Welter und Kim (2018) und Mauer et al. (2017) beschriebenen Modellie- 
rungsvorschläge und der Konzeptualisierung der dem Entrepreneur zur Verfügung 
stehenden Mittel umgesetzt wurden. Eine weitere Operationalisierung gründungs- 
relevanter Aspekte wurde bisher nicht in die Modellierung einbezogen, um die 
grundlegenden Wirkungsweisen des Modells nachvollziehbar zu gestalten. Grund- 
sätzlich ist das erarbeitete Modell diesbezüglich jedoch anpassbar. 

Das im Modell verwendete Lernverfahren und der von Watkins und Dayan 
(1992) vorgestellte Q-Learning-Algorithmus eignen sich für vergleichsweise kleine 
Zustands- und Aktionsräume und Simulationen. Bei einer Erweiterung des beste- 
henden Modells um weitere Aktionen und Zustände oder die Übertragung auf real- 
weltliche Situationen wird die Gegenüberstellung der Leistungsfähigkeit weiterer 
Lernverfahren notwendig (Hasselt, 2010). 


6.3 Ausblick 


Das in der vorliegenden Arbeit entwickelte Modell dient dem Nachweis, dass Effec- 
tuation algorithmisch interpretiert werden kann und autonome Agenten in die Lage 
versetzt werden, rudimentär effektuatives Verhalten zu erlernen. Die in Abschnitt 6.2 
erläuterten Einschränkungen der Forschungsarbeit zeigen, welcher weitere Unter- 
suchungsbedarf ausgehend vom aktuellen Stand besteht. 

Das in Kapitel4 vorgestellte RIL-Effectuation-Modell addressiert Problemstel- 
lungen, die Mauer et al. (2017) in der Diskussion über künftige Forschungspotentiale 
beschreiben. Unter anderem wird die Untersuchung eines kompakten Finanzma- 
Des gefordert. Die Entwicklung einer effektuativen Belohnungsfunktion trägt dieser 
Anforderung in Teilen Rechnung. Unter Einbeziehung von Kosten und Mittelein- 
satz (Read, Dew et al., 2009) konnte das von Mauer et al. (2017) vorgestellte Leis- 
tungsmaß erweitert werden. Die Modellierung des Anreizes für den effektuativen 
Mitteleinsatz in Gleichung 4.2 wurde mittels einer Exponentialfunktion realisiert. 
In folgenden Untersuchungen wäre eine Diskussion weiterer Ansätze zur formali- 
sierten Gestaltung des Mitteleinsatzes denkbar, die eine Parametrisierung des Mit- 
telverbrauchs ermöglichen. Die Erhebung empirischer Daten zum Mittelverbrauch 
effektuativ handelnder Entrepreneure kann dabei ebenfalls in die Modellierung ein- 
fließen. 
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Weitere Aspekte, die in die Entwicklung eines Leistungsmaßes gemäß Mauer 
et al. (2017) einfließen können, wie beispielsweise das Renditeverhalten von Stra- 
tegien (Wiltbank et al., 2009), haben im RIL-Efffectuation-Modell bisher keine 
Beachtung gefunden. Es ist denkbar, die Belohnungsfunktion in ktinftigen Unter- 
suchungen diesbeziiglich zu erweiteren. Die Einbeziehung des Zeitfortschritts und 
von Opportunitätskosten in die Modellierung der Belohnungsfunktion können die 
Berücksichtigung des Renditeverhaltens ermöglichen. 

Die bisher bestehende effektuative Belohnungsfunktion wurde anhand von in 
der Literatur zu findenden Ausführungen modelliert. Zur weiteren Annäherung an 
ein realweltliches Verhalten des Agenten ist die Einbeziehung empirischer Daten 
notwendig. Dies kann beispielsweise durch den Einsatz eines humanen Trainers 
realisiert werden. Knox und Stone (2009), Pilarski et al. (2011) und Suay und Cher- 
nova (2011) geben Hinweise darauf, wie der Einsatz eines menschlichen Lehrers 
realisiert und die damit verbundene Modellierung der Belohnungsfunktion umge- 
setzt werden kann. Folglich können in künftigen Untersuchungen Entrepreneure in 
die Lage versetzt werden, in gründungsbezogenen Entscheidungssituationen Beloh- 
nungssignale an den Agenten zu senden, um beispielsweise effektuatives Verhalten 
zu erlernen. 

Dies geht einher mit der Operationalisierung der Merkmale im Zustandsraum, die 
vom Entrepreneur als relevant für die Entscheidungssituation eingeschätzt werden. 
Weitere Untersuchungen zur Darstellung des Beobachtungsraums im Gründungs- 
umfeld in maschinenlesbarer Form können für das realitätsnahe Lernen effektuati- 
ven Verhaltens eines Agenten hilfreich sein. Die damit einhergehende Verbesserung 
des Algorithmus kann neben der Verfeinerung der Effectuation-Theorie praxisrele- 
vante Erkenntnisse nach sich ziehen. Ist der effektuative Agent in der Lage entrepre- 
neuriales Verhalten in verbesserter Form abzubilden, kann die Künstliche Intelligenz 
beispielsweise in entscheidungsunterstützenden Systemen genutzt werden. Novizen 
wie auch erfahrene Entrepreneure wären dadurch in der Lage, Gründungssituationen 
besser einzuschätzen und Empfehlungen zu erhalten. 

Die damit verbundene Veränderung des Zustandsraums beinhaltet die Evaluie- 
rung weiterer Lernalgorithmen. Bei einer Vergrößerung des Zustands- wie auch 
des Aktionsraumes besteht die Notwendigkeit, weitere performante Verfahren zu 
erproben. Mit Hilfe von Deep-Reinforcement-Learning-Methoden besteht die Mög- 
lichkeit auch für umfangreiche Aktions- und Zustandsräume, effiziente Strategien 
zu erlernen. Durch die Verbindung von Supervised-Learning- und RIL-Verfahren 
können hochdimensionale Eingabedaten verarbeitet und eine Steuerungsstrategie 
erlernt werden (Mnih et al., 2016). 

Im Einklang mit Welter und Kim (2018) zu zukünftigen Forschungsaktivitäten, 
kann die Untersuchung, in welchen Situationen ein Wechsel zwischen 
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Effectuation und Causation als dominierende Strategie sinnvoll ist, Hinweise sowohl 
für die Praxis als auch die Theorie liefern. Im vorgestellten RIL-Effectuation-Modell 
wurde bislang lediglich effektuatives Verhalten beanreizt. Durch die Gestaltung 
einer Belohnungsfunktion, die Effectuation und Causation berücksichtigt, kann 
überprüft werden, in welchen Zuständen eher effektuatives oder kausales Verhalten 
sinnvoll ist. 

Weitere Untersuchungen zur Beziehung von knightscher Ungewissheit und 
Effectuation können zudem Aufschluss über die zugrundeliegenden Annahmen der 
Theorie liefern. Taleb (2010, S. 345) stellt fest, dass Individuen funktional nicht 
in der Lage sind auf einer Mikro-Ebene zwischen Risiko und Ungewissheit zu 
unterscheiden. Für die weitere Forschung kann davon ausgehend die Relevanz des 
entrepreneurialen Problemraums - der für Effectuation zentral ist — untersucht wer- 
den. Eine Weiterentwicklung des Problemraums kann wiederum Ausgangspunkt 
für neue Erkenntnisse zur Beschreibung entrepreneurialen Verhaltens sein. 

Effectuation konnte sich in der Vergangenheit insbesondere neben den Entrepre- 
neurship-Theorien Bricolage (Baker & Nelson, 2005), Lean Startup (Ries, 2011) 
und kausalen Ansätzen etablieren. Im Rahmen von Produktentwicklungsprozesses 
in einem unsicheren Umfeld, die nicht zwangsläufig dem Entrepreneurship zuzu- 
ordnen sind, entstanden Vorgehensmodelle, die, wie Effectuation, ebenfalls durch 
einen iterativen Charakter geprägt sind. Ähnlichkeiten ergeben sich beispielsweise 
in Bezug auf Scrum (Mathiaszyka et al., 2019) und Design Thinking (Mansoori 
& Lackéus, 2019). Künftige Untersuchungen könnten mittels einer holistischen 
Betrachtung der Vorgehensbeschreibungen den Grundstein für ein ganzheitliches 
Modell liefern und den möglicherweise daraus resultierenden Mehrwert für Entre- 
preneure ergründen. 

Zusammengefasst erweitert das in der Arbeit vorgestellte Modell bisherige 
Ansätze zur Modellierung von Effectuation und stellt dabei autonomes Lernen in 
den Vordergrund. Mit der Vorstellung einer Methode zur Gestaltung von knightscher 
Ungewissheit im Kontext agentenbasierter Modelle konnten bisherige Herausfor- 
derung bei deren Formulierung überwunden werden. Durch Einsatz von Verfahren 
des maschinellen Lernens wurden bestehende Simulationsansätze um eine intelli- 
gente Verhaltenskomponente ergänzt. Die gewonnenen Erkenntnisse liefern damit 
einen Beitrag zur Verfeinerung der Effectuation-Theorie und bereiten den Weg für 
weitere Forschungsvorhaben. 
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